my idea for new project
New project — my idea
문제 정의
- 머신러닝(지도학습/비지도학습): 클러스터링, 분류 모델 주 사용 (KNN, Ensemble Classifier 등…), 연관 분석 기법, GBDT
- 딥러닝: CIFAR10 이미지 분석
- 문제:
고객 관점? vs. 서비스 제공자 관점?
상품 - 어떤 도메인인지
협업 / 내용기반 필터링 기법: 고객 카테고리에 맞는 아이템 추천 (클릭수, 구매수, 성별, 나이, 팔로잉 수 등..을 활용한 예측 기법 사용)
광고주 데이터를 통한 연관 상품 추천
고객 군집 분석(clustering) - 특정 고객집단의 특성 추출 및 파악
키워드와 제품명을 기반으로 한 텍스트 분석을 통한 추천시스템
추가: 개인화 상품 추천, 상품 브랜드 자동 추출, 연관 검색어 개발, 거래 위험 (Fraud 위험 탐지 알고리즘)
데이터 정의 및 수집
- 데이터 셋: ad / advertiser / view_log / impression_log / viewer // dataset
- 사용할 컬럼들: 상품 아이디, 상품 입찰가, 키워드, 나이, 성별, 로그 데이터 시간대 등… (device type, 광고 상품 신고수 컬럼 은 제외)
테이블 조인 (SQL 활용), table merge, 이미지 크롤링 혹은 sql 쿼리문 활용, 키워드를 통한 텍스트 분석, user-item matrix (거리 기반 유사도), …
URL 크롤링으로 이미지 저장 후 텍스트 분석 및 이미지 분석으로 추천 상품 제공 (가능하다면 번개 장터 홈페이지 후기 등 크롤링으로 긍부정 분석)
- EDA: 파이썬과 태블로 활용
- 최종 결과물을 UI/UX로 Figma를 활용해서 구현해보기 (번개 장터 추천시스템 앱을 만든다면??)
해당 문제에 대한 기존 방법론 조사
- 논문: 추천시스템 관련 내용들 (예시 논문: 딥러닝 기반 나이 예측과 자연어처리를 활용한 의류추천 시스템)
- 캐글 사이트: 추천시스템 모델 코드들에 관한 참고 레퍼런스
- github에서 관련 모델 코드들 참고
- 온라인 강의(The Red): 추천시스템에 관한 실습코드를 레퍼런스용으로 사용
사용할 협업 툴(환경):
슬랙: 멤버, 강사님과의사소통
github: 프로젝트 코드 공유
notion: 보고서 및 업무 분담 등 기록수행 환경:
Google Colab or Jupyter Notebook
SQL
Tableau
Figma
- 참고
기획서에 반드시 포함되어야 하는 내용들- 문제 정의
- 데이터 정의
- 해당 문제에 대한 기존 방법론 조사 (논문, tech review 등)
- 사용할 모델 리스트 (rough하게)
- 프로젝트를 수행할 환경 (Google Colab, Kaggle Notebook, AWS 등)
추가 사항: 프로젝트 계획 (rough하게)