my idea for new project

New project — my idea

  1. 문제 정의

    • 머신러닝(지도학습/비지도학습): 클러스터링, 분류 모델 주 사용 (KNN, Ensemble Classifier 등…), 연관 분석 기법, GBDT
    • 딥러닝: CIFAR10 이미지 분석
    • 문제:
      고객 관점? vs. 서비스 제공자 관점?
      상품 - 어떤 도메인인지
      협업 / 내용기반 필터링 기법: 고객 카테고리에 맞는 아이템 추천 (클릭수, 구매수, 성별, 나이, 팔로잉 수 등..을 활용한 예측 기법 사용)
      광고주 데이터를 통한 연관 상품 추천
      고객 군집 분석(clustering) - 특정 고객집단의 특성 추출 및 파악
      키워드와 제품명을 기반으로 한 텍스트 분석을 통한 추천시스템
      추가: 개인화 상품 추천, 상품 브랜드 자동 추출, 연관 검색어 개발, 거래 위험 (Fraud 위험 탐지 알고리즘)
  2. 데이터 정의 및 수집

    • 데이터 셋: ad / advertiser / view_log / impression_log / viewer // dataset
    • 사용할 컬럼들: 상품 아이디, 상품 입찰가, 키워드, 나이, 성별, 로그 데이터 시간대 등… (device type, 광고 상품 신고수 컬럼 은 제외)
    • 테이블 조인 (SQL 활용), table merge, 이미지 크롤링 혹은 sql 쿼리문 활용, 키워드를 통한 텍스트 분석, user-item matrix (거리 기반 유사도), …

    • URL 크롤링으로 이미지 저장 후 텍스트 분석 및 이미지 분석으로 추천 상품 제공 (가능하다면 번개 장터 홈페이지 후기 등 크롤링으로 긍부정 분석)

    • EDA: 파이썬과 태블로 활용
    • 최종 결과물을 UI/UX로 Figma를 활용해서 구현해보기 (번개 장터 추천시스템 앱을 만든다면??)
  • 해당 문제에 대한 기존 방법론 조사

    • 논문: 추천시스템 관련 내용들 (예시 논문: 딥러닝 기반 나이 예측과 자연어처리를 활용한 의류추천 시스템)
    • 캐글 사이트: 추천시스템 모델 코드들에 관한 참고 레퍼런스
    • github에서 관련 모델 코드들 참고
    • 온라인 강의(The Red): 추천시스템에 관한 실습코드를 레퍼런스용으로 사용
  • 사용할 협업 툴(환경):
    슬랙: 멤버, 강사님과의사소통
    github: 프로젝트 코드 공유
    notion: 보고서 및 업무 분담 등 기록

  • 수행 환경:
    Google Colab or Jupyter Notebook
    SQL
    Tableau
    Figma

  • 참고
    기획서에 반드시 포함되어야 하는 내용들
    1. 문제 정의
    2. 데이터 정의
    3. 해당 문제에 대한 기존 방법론 조사 (논문, tech review 등)
    4. 사용할 모델 리스트 (rough하게)
    5. 프로젝트를 수행할 환경 (Google Colab, Kaggle Notebook, AWS 등)
      추가 사항: 프로젝트 계획 (rough하게)