EDA 2
EDA pt.2
1 | df = pd.pivot_table(data = movie_train, columns='screening_rat', index = 'genre', values= ['director'], aggfunc=len, ) |
1 | df = pd.pivot_table(data = movie_train, columns='screening_rat', index = 'genre', values= ['director'], aggfunc=len, ) |
주관적 관점과 객관적 관점으로 바라보라. (Look somthing subjectively and objectively)
관찰하고 관찰하라 (Look at everything again and again)
오랜 시간 동안 디자인과 마케팅 그리고 데이터는 뗄래야 뗄 수 없는 필수불가결한 존재이다. 사실 인류가 살아오면서 디자인과 함께 존재해왔다고 해도 과언이 아니다. 고대 그리스 아니 어쩌면 그 전부터 인류가 나타나기 시작한 그 때부터가 아닐까 싶다. 인류가 살면서 인류에 최적화된 도구들을 만들고 하면서부터 디자인이 시작된 건 아닐까라는 생각을 해본다.
인류가 수없이 전쟁 등을 치루면서 생존의 문제를 겪어왔다. 그러면서 어떻게 해야 살아남을까하는 그런 생존 문제들을 해결하기 위해 어떠한 관점으로 문제를 바라왔을까 이러한 생각 또한 디자인이 아니였을까.
디자인 씽킹에서 중요하게 보는 것이 사람의 관점, 어떻게 상황과 문제를 분석하고 해결할지에 대한 것이다.
어떤 직업을 갖고 있느냐에 따라 디자인의 적용 분야와 의미가 다르다. 단순히 눈에 보이는 작품적인 면에서의 디자인은 흔하다. 눈에 보이는 것은 뻔하니까. 그러나 여기에 자신만의 가치와 쓸모있는 기능을 더하면 그것은 아주 유용한 디자인이 된다.
그러나 모든 문제들은 눈에 띄지 않는다. Invisible problem. 이걸 찾아내는 것이 의미있는 행위라 할 수 있다. 일반적으로 데이터 분석에서 인사이트를 도출한다하는 것은 데이터 자체만 가지고 바라봤을 때 눈에 보이지 않는 해석을 찾아야 한다는 것과 같은 셈이다.
우리가 일반적으로 겪는 상황들 속에서 이건 불편한 것, 이랬으면 좋겠다 싶은 것들이 꽤 있다. 그 속에서 겪는 불편함을 해소하고자 디자인을 하고 문제를 해결하기도 한다. 예를 들어보자면, 장애인을 위한 저상버스가 아닐까 생각해본다.
타인에 대한 이해. 심리학에서도 다루는 이 심리적인 부분을 이용하여 마케팅에 이용하듯 디자인에서도 이 섬세한 배려가 엿보이기도 한다.
혁신, 디자인, 가치, 욕구와 욕망.
오늘 디자인 씽킹 수업을 듣고 난 후 들었던 생각들을 한 번 정리해봤다…
오늘은 내가 빅데이터를 공부하면서 느꼈던 것들을 잠시 적어볼까 싶다.
사실 빅데이터를 공부하게 된 것은 아주 우연이였다. 원래는 금융분야를 전공으로 공부하고 있었는데 우연치않게 빅데이터를 접하게 되고 진로를 고민해보게 되었다. 마케팅 개론 수업때 빅데이터라는 용어를 접한게 다였고 사실 생각도 못했다. 그러나 취업을 포함해 내가 가장 관심을 가지고 열심히 해볼 수 있는 분야가 무엇일까 고민하던 중 접한 영역이 빅데이터
였다. 미국 기업에 인턴 준비하려고 하던 중 자격요건으로 빅데이터 관련 스킬을 요구하는 기업들이 많아서 결국은 포기했었다.
코딩도 전혀 모르고 파이썬? R? 이런 건 대체 뭔지도 모르는 내가 이것들을 공부하면서 앞으로는 데이터는 절.대. 무시할 수 없는 중요한 분야임을 깨달았다. 코딩하면서 결과가 잘 안나오거나 오류가 계속 나면 노트북을 때로는 내려치고 싶을 때도 있지만 그래도 끝까지 해보면서 며칠이 걸려도 결과물이 나오면 뿌듯할 때도 많다.
부족하지만 그래도 코딩을 해나가다보면 얻는 인사이트들도 많다.
일상의 모든 것들이 빅데이터이다. 지금 이순간 내가 github 블로그에 코딩으로 포스팅하면서 올리는 포스트들 모두 데이터인 셈이다. 나중을 되돌아 봤을때 지금 공부해왔던 것들이 하나씩 쌓여가며 큰 도움이 되지 않을까 싶다.
쉽게 얻은 것들은 나중에 크게 대가를 치르게 된다. 그렇기 때문에 자격증도 지금 빅데이터를 공부하고 있는 모든 것들이 쉽게 얻어진 것들이 아니기에 큰 빛을 발하게 되리라 기대해본다.
Today is the most busy and exhausting day…
I watched the online lecture video about handling data, including data preprocessing, to prepare for the new project.
The lecture is about:
for
iterationI also practiced the machine learning to prepare for Bigdata certificate.
The next step is EDA after preprocessing the missing values in DataFrame.
Figuring out the lowest correlation, then dropping the columns that are less correlated.
The following codes are for EDA.
1 | movie_train.corr() |
I added the visualization codes about the nominal data.
I am not done yet!
The codes are just the first step of EDA.
This post is for a series of practice for machine learning.
I used movie data in order to practice the machine learning by preparing for the big data certificate test.
The python code below is just to preprocess the data. (Today I will post only codes of preprocessed training data.)
1 | # import modules & files |
I filled the missing values by mean of each director’s the number of previous cinema audiences.
Please do not copy codes for commercial purpose. (The copyright of data and the question owned by Dacon)
오늘 어떤 내용을 올릴까 고민하다가 갑자기 문득 이걸 해보려고 한다. (소재가 없어서다…)
데이터 전처리!
데이터 전처리는 사실 데이터 분석에서 아주 중요한 부분이다. 전처리를 하지 않은 경우 수치상의 상관계수라던가 모델링에서 문제가 발생할 수 있어서다. 과적합 등의 문제가 발생하게 되면 예측 모델이나 분류 모델 등 성능이 떨어지기 때문이다.
이 전처리 부분을 다루는 이유는 어제 빅분기 실기시험 대비 머신러닝 연습하다가 깨달은 부분이기도 하다. 데이터 전처리에서 낑낑거렸는데 알고보니 잘못 방향을 잡아서 데이터 프레임 병합이 안되거나 상관계수가 너무 낮게 나오기도 했다.
그래서 데이터를 불러오고 처음에는 결측값 등을 먼저 확인해야한다. 그리고 결측값을 파악하고 나면 describe
(파이썬) 으로 수치형 데이터들의 정보를 확인해봐야 한다. 어느 정도 정리가 되었다면 명목형 데이터 부분들을 확인하고 불필요한 컬럼들이 있는지 있다면 당연히 제거를 해야한다. 그리고 scaling을 해서 표준편차 등의 수치들에 문제가 없는지를 파악하고 전반적으로 heatmap/pairplot으로 상관관계 여부를 확인해볼 필요가 있다는 것.
만약 회귀분석으로 예측 모델링을 했다면 regression OLS와 다중공선성 코드를 통해 컬럼간의 관계나 혹은 과적합 등의 문제가 발생하고 있는지 등을 파악하고 다시 전처리 과정을 거쳐야 한다.
이 부분들을 거치지 않으면 생각한대로 결과가 나오지 않는다는 것을 파이썬을 배우면서 깨달았지만 막상 실전이라 생각하고 연습하니 잘 안되었다… 연습이 얼마나 많이 필요한지도 알게 되었고 만약 실무에서 내가 이 데이터들을 다루고 모델링을 한다고 하면 엄청난 노력이 필요하지 않을까 싶다.
Feature preprocessing과 EDA가 빅데이터 분석에서 엄청나게 중요하다는 것을 다시 한번 새삼 느껴본다.
Dacon data for practice I used the data here!
- 데이터의 의미를 정확히 모를 때(when I need more knowledge about the field)
- 데이터 자체는 쉽게 파악이 되나 데이터 양이 많을 때 (if the volume of the info is vast, it is difficult to figure out the details)
- 측정을 잘못 했을 때 (noise is too many in info or need the reliability)
를 대비해서 데이터에 대해 알기 위해 사용
- the degree that two variances are distant from each
mean
value => as another one is moving forward the postive/negative direction being distant from its mean, one variance is also moving forward the positive direction being distant from its mean.- When the deviation is multiplied, the output value is also larger. But, when the unit is different from each data, the scale of the deviation is also different. In other words, you cannot compare with these data, so you need to standardize the data first.
- You cannot explain anything (e.g. the relation) only using the correlation coefficient.
- Correlation coefficient cannot describe the nonlinear relation. (You have to identify if there are direct correlation among the data first.)
- Because raw data originally includes the noise, you cannot figure out the perfect linear relation. In linear regressional coefficient, the errors are included.)
- data should be unbiased. (if the specific biased information is identified from the sample, this information cannot explain about the population.)
- the features of the sample are same as of the population (you cannot predict at all if they are totally different.)
important: minimizing the errors of data
Sometimes, everyone needs some breaktime. When you have in trouble, you might want to give up everything, but I think everyday is beautiful!
You deserve to be loved.
你敢有勇气,别放弃自己。你可以爱自己,能让自身够珍贵吧。
Vector
direction is about physical trend
.
distance between vectors
cosine distance is related to cosine similarity.