check point for data preprocessing

Data Preprocessing

오늘 어떤 내용을 올릴까 고민하다가 갑자기 문득 이걸 해보려고 한다. (소재가 없어서다…)

데이터 전처리!

데이터 전처리는 사실 데이터 분석에서 아주 중요한 부분이다. 전처리를 하지 않은 경우 수치상의 상관계수라던가 모델링에서 문제가 발생할 수 있어서다. 과적합 등의 문제가 발생하게 되면 예측 모델이나 분류 모델 등 성능이 떨어지기 때문이다.

이 전처리 부분을 다루는 이유는 어제 빅분기 실기시험 대비 머신러닝 연습하다가 깨달은 부분이기도 하다. 데이터 전처리에서 낑낑거렸는데 알고보니 잘못 방향을 잡아서 데이터 프레임 병합이 안되거나 상관계수가 너무 낮게 나오기도 했다.

그래서 데이터를 불러오고 처음에는 결측값 등을 먼저 확인해야한다. 그리고 결측값을 파악하고 나면 describe (파이썬) 으로 수치형 데이터들의 정보를 확인해봐야 한다. 어느 정도 정리가 되었다면 명목형 데이터 부분들을 확인하고 불필요한 컬럼들이 있는지 있다면 당연히 제거를 해야한다. 그리고 scaling을 해서 표준편차 등의 수치들에 문제가 없는지를 파악하고 전반적으로 heatmap/pairplot으로 상관관계 여부를 확인해볼 필요가 있다는 것.

만약 회귀분석으로 예측 모델링을 했다면 regression OLS와 다중공선성 코드를 통해 컬럼간의 관계나 혹은 과적합 등의 문제가 발생하고 있는지 등을 파악하고 다시 전처리 과정을 거쳐야 한다.

이 부분들을 거치지 않으면 생각한대로 결과가 나오지 않는다는 것을 파이썬을 배우면서 깨달았지만 막상 실전이라 생각하고 연습하니 잘 안되었다… 연습이 얼마나 많이 필요한지도 알게 되었고 만약 실무에서 내가 이 데이터들을 다루고 모델링을 한다고 하면 엄청난 노력이 필요하지 않을까 싶다.

Feature preprocessing과 EDA가 빅데이터 분석에서 엄청나게 중요하다는 것을 다시 한번 새삼 느껴본다.