Project meeting note
오전 논의 사항
- emergency_cnt 이상치를 삭제해도 무방해보임.
- adver_follower_count 컬럼 삭제
- 8% 정도 비율의 데이터들을 완전히 삭제할지 여부
- 3~4% 상품이 노출되어 클릭까지 진행한 고객 제외 후 나머지 96%는 단순히 노출되어 서버에 접속한 경우의 결측치 처리 여부
오후 논의 사항
- imp_id 중복제거한 데이터 셋을 다시 생성 후 전처리 (오늘 할 일!!)
- 데이터 전처리 방법 확인하기
- 이상치 삭제 후 데이터 판단
- 결측치, 이상치 처리 및 질문 사항 논의 (약간의 영향력은 남겨두되 최대한 이상치, 결측치 처리하기)
- 결측치가 8%정도 되는 데이터 컬럼들 삭제
- click_time 컬럼은 절댓값을 씌운 후 다시 컬럼 생성하여 이후 단계 진행 (양수로 만들기)
- emergency_cnt 이상치 부분 처리 문제 질문.
- flag_used 카테고리 질문
- 나이는 범주화 (0세를 임의의 값으로 대체할지 아니면 따로 처리가 필요한지 질문)
- click_time 결측치 처리 질문
데이터 전처리
결측치 처리 판단
device_type_x 컬럼의 경우 데이터 값이 전부 a이므로 무의미한 데이터로 보여짐. adver_follower_count 컬럼 또한 0이라는 데이터 값만 가지고 있으므로 무의미한 데이터.
→ 처리 방법: 삭제click_time의 경우
- (음수)
값이 존재. (이 부분과 결측치 처리 문제가 발생)- 음수값이 존재하는 이유: impression의 서버 접속 시간이 view 서버 접속시간보다 늦기 때문..
- 결측치 값의 비중이 96~7%이므로 삭제는 안됨…
- 3~4% 상품이 노출되어 클릭까지 진행한 고객 제외 후 나머지 96%는 단순히 노출되어 서버에 접속한 경우
→ 처리 방법: 무조건적인 삭제는 금물.. 절댓값을 씌운 상태에서 click_time을 새로 계산.
수치형 데이터 중 이상치 처리 필요해 보이는 컬럼들:
→ bid_price_x, emergency_cnt, commen_cnt, user_age(나이는 임의로 0을 넣은 건가…..), adver_pay_count, adver_parcel_post_count, adver_transfer_count, adver_chat_count 등…- 눈에 띄는 이상값들은 비율 확인해서 삭제하기
- 스케일링 진행할 때 robust_scaler로 진행.
- name, keyword의 경우 텍스트 분석 진행 가능 (카카오 아레나 블로그 참고해서 태그 별 분석도 가능해보임)