0%
데이터 분석 결과
- 숙박에 대한 별점과 게시확인 수의 상관관계는 보이지 않음 (수치상 -0.15로 나옴 스캐터 플롯을 그려보면 상관관계가 없어보임)
- 별점은 대체로 9.4에서 10점 이 쪽으로 몰려있으며 전반적으로 9점이상인 점수에 몰려있는 모양을 하고 있다.
- 가중치 범위로 정할 수 있는 피벗 테이블을 만들어 보면 4가지로 구분될 수 있음 (추천해요 부분이 대체로 많은 편)
- 게시확인수는 편차가 큰 편 그래서 MinMaxScaler를 통해 스케일링을 한 번 해주고 가중치 계산을 해줄 필요가 있음. (혹은 RobustScaler를 이용하거나)
- 숙박업소에 대한 카테고리별 추천도 여부는 큰 차이는 없어보이나 대체로 호텔/콘도를 더 많이 좋게 추천하는 편.
- 호텔/콘도의 경우 대기업에서 운영하는 경우가 많아서 입지도 넗고 상가업소 번호도 많음.
생각해볼 문제
- 이상치로 보여지는 데이터들이 있어보이나 과연 이 데이터들을 삭제하거나 고려사항에서 배제하는 것이 맞는가
- 별점에서 보여지는 편차들을 어떻게 고려해서 가중치를 부여할 것인가
- 호텔/콘도 쪽 추천도가 높은 이유는 여행 시 대체로 호텔이나 콘도를 많이 선택하며 호캉스 등의 여부로 선택을 하는 것은 아닌가..
- 호텔/콘도에 대한 추천도가 높다는 것은 많이 이용했다는 것.. 사람들이 이용했을 때 좋았고 앞으로도 자주 이용할 것. (뇌피셜)
- 숙박업소에 경우 평가부분에서 편차가 큰 편..
- 기존 추천도의 경우 구간이 4개의 구간으로 나누어지기 때문에 가중치에 대한 구간도 4개로 나누면 되지 않을까