My Blog for coding and note

https://github.com/hesthers

0%

Feedback of Tableau project

  • 내가 가지고 싶어했던 이야기, 주제는 이런 것이였다… 이러한 부분들을 구현하기 위해서 이러한 내용들을 표현하고 싶은 것이였다.
  • 보여지는 부분과 숫자의 매칭이 되지 않은 경우 혼동이 발생할 수 있음. 다른 그래프 끼리는 색상을 다르게 표현해주면 시각적으로 좋음.
  • 인사이트 도출 (지도같은 시각화를 통해)
  • window_max([~]) = [~] => 특정부분 색상 강조True/False로 구분되어
  • 대시보드 탭 오른쪽으로 클릭하고 모든 시트 숨기기 기능 및 색상 구분 가능
  • 눈에 띄는 변화를 색상으로 주는 것이 좋음.

  • UI/UX 부분 고려사항임…

  • 부동산에서는 평균보다는 중앙값에 focus..
  • 거래금액의 평균값..
  • 년도별은 있는 그대로 표현…
  • top5 하이라이트 테이블 필터를 거래금액 평균이나 중앙값으로 설정

  • 브랜드별 그룹화시켜서…

  • 특정 이슈나 이벤트를 중점을 두고…

Things to know about Tableau

  • 데이터 셋 => 무엇에 대한 것인지 정확하게 알고 있어야 함.
  • xxx.파일확장자 (카운트): 태블로에서 파일이 정확하게 올려졌는가
    태블로에서는 데이터를 집계해서 보여주기 때문에 디테일을 보기 어려우므로 하나하나 파악하기 어려움
  • 데이터를 보여줄 때 보여주고 싶은 단면만 보여줘서는 안됨.

Data Literacy

  • 어떤 인사이트를 얻을것인가.. 데이터를 잘 읽어낼 수 있는가
  • 데이터 시각화: graphicacy / 시각자료를 해석하는 능력
  • 왜 중요한가?? 디지털로의 전환하는 시대
  • data literacy for data-driven decision making
  • 데이터를 정확하게 이해하고 이를 기반으로 의사결정 할 수 있도록 해야 함.
  • 보고싶어하는 방향, 가고싶어하는 방향을 지향하는지.. (확증편향 주의)
  • 부분만 보고 전체인 것처럼 표현하는 것은 안됨.
  • 본질을 제대로…. 데이터의 신뢰성 (신뢰할만한 자료인가.. reliability) = bias is in??

Things to know about Tableau

  • 태블로 프렙 => 데이터 전처리를 위해 필요한 프로그램

  • 유니온 (union):
    combination of table as multiple table is combined and then create the whole table by adding the rows below.
    데이터 선택 창에서 드래그해서 해당 테이블 시트 부분을 끌다보면 유니온이라는 부분이 뜨게 됨.
    다른 컬럼이 생성된 경우 ctrl을 눌러서 해당 컬럼들을 동시에 클릭한다음 불일치 필드 병합시켜주고 이름은 수동으로 변경시켜줌.

  • 조인 (Join):
    the combined data is added next to the new column
    Combine the table physically
    Be careful when joining the data in each table are the same 100% (How to join the tables??)

  • 방향 중요함.
  • 조인의 조건 잘 맞춰주기
  • 각 데이터 테이블의 공통적인 데이터를 가져올 것인가.

참고사항:
관계: 느슨한 형태로 결합, 방향은 태블로가 알아서 잡아줌. (방향 자동 설정) 조건만 설정)
블렌딩: 제약이 많으나 유용한 기능이며 따로 구분되어 있는 시트를 하나의 시트 위에 두 개의 원본소스를 같이 사용할 때 조건을 잡아주는 것, 연산을 통해서 개별 시각화를 만들 수 있으나 조인처럼 강력하게 물리적으로 결합되거나 병합이 일어나는 것은 아님.

  • 지도상에서 읍면동인 경우 외부에서 지리경계 정보를 가져와야 함. (shp 파일 = 공간정보 파일)

  • 엑셀 데이터 원본의 필드명을 인식못하는 경우 데이터 해석기 사용하면 됨. 자동으로 데이터 처리됨.

  • change the data type because the join cannot occur when the type is dfferent from another one.
  • 차원과 측정값의 경계가 모호하는 경우 태블로에서 사용하기 애매한 데이터 형이므로 피벗으로 테이블 형태를 변경하기
  • 연도와 분기 순서가 뒤섞여있는 경우 날짜형으로 변환 (예. Q1 – 2018)
    RIGHT([Date], 4) + "-" + IF LEFT([Date],2) = "Q1" THEN "01-01" ELSEIF LEFT([Date],2) = "Q2" THEN "04-01" ELSEIF LEFT([Date],2) = "Q3" THEN "07-01" ELSE "10-01" END

Tableau project record

  • It is just record for tableau project.

  • Today record:
    collaborate members’ visualization and make sure of a total format for this project

  • Maybe finish all things about project by tomorrow.

Tableau project

Tableau project has begun! It is a small project again, a kind of toy project.

Things of this project

TOPIC

  • Aptarments of Seoul Real estate

Scenario

  • Recommendation to two groups (young newbie couple and 4050 gen. family)

Factors for Analysis

  • The year that the apt was built and how many people transact the apt, the avg.amounts based on city, county, the top 10 recommended apt, and the floor space

  • Using Real Estate data of Seoul, the project would be proceeded!

Tableau and prediction algorithm

  • 태블로는 스토리텔링에는 굉장히 의미있고 효과적인 도구이나 예측 알고리즘 등에는 적절하지 못하나 예측은 추세 등의 간단한 기법을 활용해서 가능함

Things to know about Tableau

  1. 필터 (Filtering)
  • 태블로의 본질과 맞닿아 있는 기능 (with 필터 액션)
  • 스토리텔링이 가능하게 함
  • order of operations(태블로 개발자와 유저간의 약속)의 핵심 요소 (significant part of tableau)
  • 차원필터(Dimensional filter): 가장 많이 사용하게 되는 필터, 테이블(차원) 값의 필터
  • 단일값 = 하나의 값만 선택, 다중값 = 여러개의 선택지를 제공
  • 측정값 필터: 통계표시 없으면 데이터 원본에서의 해당 데이터값은 아예 버리는 것 (한 행의 level에서 필터링), 통계표시 (집계 표시)가 있으면 제품의 측정값의 집계 방식으로 필터링
  • 일반 탭: 원하는 값 선택, 와일드카드, 조건, 상위(정확한 기준을 제시, 이후에도 계속 조건이 유지됨.) 로직을 의미
  • independent filter: 서로 영향을 주지 않음. 차원 필터(분류)가 Top N(우선순위가 높은 필터)의 종속 필터이므로 ontext filter를 먼저 설정해줘야함.
  • dimensional filter가 context filter로 올려줄 수 있는가.. (예. 지역을 컨텍스트로 설정)
  • manually hidden filter: 숨기기 기능을 통해 전월대비 증감율 비율 표현이 가능함. 그러나 이후의 데이터를 업데이트하기 어려움.
  • Table Calculation: LAST()라는 함수를 사용하면 테이블이 자동으로 필터링되어서 계산됨.
  1. 이중축 (Double axis) & 결합축 (Combined axis)
  • 한 행이나 열에 측정값이 두 개인 경우 (축이 두 개가 생성, 왼/오른쪽 혹은 그래프가 두 개가 생성)
  • 원하는 데이터를 드래그해서 구현된 그래프 왼쪽이나 오른쪽으로 가져다 두면 두 개의 축이 양쪽에서 생성되어 자동으로 그래프를 표현
  • 축의 스케일은 축 동기화로 기준 맞추어줄 수 있음
  • 막대 크기를 조절해서 bar in bar 구현 가능하거나 축이 여러 개를 구현해줄 때 사용
  • 마크카드가 따로따로 되어있는 이중축은 자유도가 높음 (개별 설정이 가능함.) 그러나 결합축인 경우 별도로 구현하기 어려움… 그러나 여러 가지 그래프를 한 번에 표현이 가능함.
  • 비율이나 금액 등 단위가 다른 경우 결합축의 이중축으로 구현 혹은 별도로 각각 표현을 해야함.
  1. 도넛차트(Donut Chart)
  • 파이차트에서 시작하며 두 개의 파이차트를 작업용, 유지용 두 개 생성
  • 더미 필드에서 화면을 분할 생성해서 복사 = ctrl 키 누르면서 옆으로 드래그
  • 작업용 필드에서 각도 부분 제거 및 세부정보등 변경 후 크기 조절하고 이중축으로 결합

TABLEAU

Dashboard

  • 제목을 텍스트 컨테이너로 작성하면 일부 공간을 차지하여 작성됨.
  • 데이터를 집계해서 전체 정보를 요약해서 보여주므로 전체 현황을 보여주는 데 특화되어 있으나 구체적인 사항에 있어서는 약점이 있을 수 있음.
  • 필터 액션: 깔때기 표시를 누르면 해당년도 등 기준에 따른 내용을 자세하게 보여줌. 필터 동작에서도 설정 가능함.

Scatter plot & Histogram & Boxplot

  • 산점도: 2개의 측정값의 관계 (correlation)를 나타내는 차트
  • 측정값 두 개를 같이 올리게 되면 각 측정값의 한 개만 나오게 됨. (총 합계)
  • 회귀선의 기울기: x축이 한 unit 증가할 때 y축의 증감량

  • 측정값의 분포를 살펴볼 때 박스플롯 사용

  • 해당 측정값의 구간차원을 생성하여 막대그래프 형성되며 불연속형 데이터로 자동 생성됨. 불연속형 데이터를 연속형으로 만들면 히스토그램으로 만들 수 있음

Map (Geographic graph)

  • GIS: geographical info system
  • Geospatial info on a map
  • AcrGIS, QGIS 툴도 사용…
  • BI (Business Intelligence): 태블로와 같은 도구들이 핵심적인 역할을 하고 있음.
  • 지리 경계 정보는 어디에서 가져올 것인가… 만약 지역 명칭만 정확하게 가지고 있다면 태블로에서 빌려와서 사용이 가능함.
    단, 읍면동 단위와 같은 자세한 지역명칭의 경우 개인이 직접 가져와야 함.
  • 텍스트 (혹은 문자열 데이터): 공간적 의미를 가지는 텍스트이나 지리적 역할을 부여함으로써 지도 상에 위치 등을 표시할 수 있음
    e.g. 강원도(Kang-won), 경기도(Kyung-ki), …
  • 풀네임으로 되어있지 않은 데이터인 경우에도 지리적 역할을 부여함으로써 지도 인식이 가능함. 공식 지역명칭이 아닌 경우 (호남, 영남.. 등) 만들기 탭의 해당 원본 데이터를 기준으로 지리적 역할 부여해주어서 생성 가능함.
  • County or City would be duplicated, so no mark on a map, unless it is uploaded with the states.
  • If geographical data has both longtitude and latitude information, it could be represented on a map, but before you should change the string type of data into float (real number) type.

Tableau

Charts of Tableau

  • Bar chart (general)
  • Pie chart (ratio, proportion)
  • Line chart (time series data)
  • Highlight table (highlight some data to emphasize)

Things to know about these charts

  • Trend is for a line chart & Ratio is for a pie chart and including a bar chart, these charts are used in business a lot (Maybe.. 95%)
  • in Tableau, the proper chart would be set automatically.

Line Chart

  • 날짜 타입에서 +/-표시는 date type을 의미 -> 계층을 나타냄 (drill down/up)
  • 년도별로 분절되어 있음 (long-term으로는 끊겨서 트렌드를 보여준다는 것은 즉, 불연속형으로 표현되어 있다는 것).
  • 테이블 (혹은 차원)이 파란색으로 되어있으면 불연속형 데이터이고 초록색 표시인 경우 연속형 데이터를 의미. 그러나 연속형인 차원도 존재하고 불연속형인 측정값 또한 존재하고 있음.
  • 월만 열에 나타내면 연도 상관없이 전체 년도의 데이터가 월 하나에 표시.
  • 연속형 데이터는 연, 분기, 월 전부를 포함하고, 불연속형은 연, 분기, 월 따로따로
  • 마우스 오른쪽을 누르면서 (윈도우환경) 드래그할 때 데이터 형 표시 선택가능함
  • 라인차트와 영역차트의 차이는 그래프 아래에 색칠이 되어 있는가 아닌가
  • 개별 차트의 전체, 분기별 트렌드를 한 번에 보여주고 싶을 때 영역차트가 적절함
  • 추세선(Regression Line) represents long-term period of the data.

Pie Chart

  • how many the weight has in the very data
    예. 지역에서 매출이 얼마인가를 파악할 때 (전체 비율 중 얼마인가)
  • 퀵 테이블 계산(QTC, Quick Table Calculation)을 가지고 비율 계산 가능함.
  • The basic charts that Tableau has are built-in chart.
  • 비율에서 모수(Parameter)가 중요함: 전체인지 어떤 기준에 따른 비율인지..

Dash Board

  • 대시보드: 시트와 개체를 적절하게 배치할 수 있게 위치를 잡아주는 것.
    바둑판식: 전체 면적을 확보해가면서 배치 (알아서 사이즈 조정)
    개체 중 가/세로표시는 컨테이너 (담을 수 있는 공간)를 의미
  • index(): a function to set a line of data

Example

I made another example about Air BnB data using Tableau tool.

Tableau example

This is just for test image on my Github blog by practicing Tableau.

TIS

  • watched online lectures: Regression analysis (Multiple & Simple)
  • studied Chinese: Reading and Listening part
    -> Watched Chinese News
    -> Studied with book

Tableau example

Using Tableau tool, I made an example to show the data visualization with the downloaded data: USA COVID-19 death statistics and world indicator data.

This is the link of my portfolio.: Tableau link

Tableau

The powerful, awesome tool for a data visualization

TABLEAU!!!!!!

  • How to design the information
  • Through Tableau, it is possible to make/improve nice portfolio.
  • easy to deliver the information and persuade the audience
  • utilize in various fields (e.g. data journalism in the Press)
  • possible to create value-added

Things to know about Tableau

  1. csv 파일은 텍스트 파일에서 open
  2. drag and drop 방식 사용 (태블로에서 모든 동작 방식)
  3. 엑셀과 태블로 차이: 엑셀에서는 데이터 자체가 원본이므로 바로 수정가능하나 태블로는 원본 데이터 수정이 안됨
  4. 태블로 용어
  • 필터: 데이터를 걸러서 보여줌.
  • 대시보드: 정보 조합 상황판 (시트 크기 다르게 배치 가능), 하나의 화면에서 모니터링 가능함
  • 스토리: ppt (차트 기반인 경우 장표(시트나 대시보드) 추가)
  • 테이블 = 차원(기준, 관점) / nominal data
  • 측정값 = numeric data
  • 그룹핑: 정제되지 않은 데이터들을 구분 및 분류시 사용
  • 서식 부분:
    영구적 방식: 숫자 형식 변경, 한번만 기본속성을 설정해주면 나머지 워크북의 모든 속성이 자동으로 설정됨.
    임시적 방식: 해당 열/행에서의 서식 => 패널에서 숫자형식 직접 변경
  1. 원본 데이터에서는 개별 데이터임에도 불구하고 태블로는 측정값을 항상 화면에서 반드시 집계, 합계되어서 보여줌. -> 가볍게 요약해서 보여주는데 특화되어 있음 그래서 엑셀보다 우수
  2. twbx 확장자로 저장 (저장이 안된 경우) - 프로가 아닌 경우 태블로 리더로 읽어야하는 파일 (바로 읽기 안됨!!)
  3. bar 차트 = 태블로 기본 차트
  • 길이의 개념이 직관적으로 판단가능함
  1. 데이터를 태블로에서 시각화할 때: 차원과 측정값을 무엇으로 할 것인가
  2. 오른쪽 키를 누른 상태에서 시트로 드래그하면 통계방법을 묻는 작은 창이 나타남.

Finishing Toy Project

Three Assumptions:

  • 가설 1. 연령별 혹은 성별로 SNS 상에서 컨텐츠 언급에서 영향을 미치는 부분이 있다.
  • 가설 2. SNS상의 해당 컨텐츠와 관련된 게시물 수와 네이버의 찜한 개수가 서로 상관 관계가 있을 것이다.
  • 가설 3. SNS 검색량 혹은 게시물 수가 높을수록 OTT 오리지널 컨텐츠에 높은 영향력을 미칠 것이다.

These assumptions are not validated.

Results:

Through SNS analysis, the proportion of the general distributing agency is much higher than others (Netflix and Tving original contents).

Toy Project record

오늘이 마지막 토이프로젝트 준비기간이다.. 사실 3일 동안 토이프로젝트 크롤링 때문에 포스팅을 올리지 못했다. 토이프로젝트 준비 마지막 날로써 마지막 기록을 담아보려고 한다.

Things that I did and to do

  • 인스타그램 크롤링 완전히 마무리하고 결과 데이터는 csv에 저장하기
  • SNS 파트 시각화 끝내기 (다양한 시각화 기법 사용)

  • 내일은 발표하는 날로 오전에 팀원들과 상의해서 그동안 준비해둔 코딩이며 시각화 부분 코딩 전부 합치기

Day 3 Toy Project

This post is just for recording the process of toy project.

  • 키노라이츠 크롤링 완료 후 데이터를 리스트에 저장하고 데이터 프레임으로 만든 다음 csv 파일로 저장하기

  • 인스타 크롤링 시작