ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • Python 데이터 분석 과정 5가지
    하루 한줄 일기/IT 기획자의 잡생각 2022. 3. 19. 15:24

    데이터 분석 실습 with Python

    패스트 캠퍼스 한 번에 끝내는 데이터 분석 초격차 패키지 Online
    이 수업은 이론과 실습을 반복해서 좋다. 매번 조금씩 끄적거리다 포기한 내용을 차근차근 따라할 수 있게 해준다. 

    Python 실습 부분 이나원 쌤이 노하우를 밝히기를 반복만이 생명이라고. 
    아래 반복과정을 숙지시켜서, 업무에 적용해보기로 한다. 1년 후의 나는 지금의 나보다 Data Literacy 가 늘기를 기원해본다. 
    너무 어려울 때에도 아래 5가지를 차근히 돌아볼 수 있도록 습관을 들여보자. 

    아래 5가지 과정을 반복하다보면, 역량과 자신감이 쌓여있을 것이다. 
    1. 데이터 파악하기 2. 질문하기 3. 데이터 정비하기 4. 답변하기 5. 시각화하기

     

     


    1. 데이터 파악하기
    데이터에 대한 설명을 읽는다.
    어떤 데이터를 수집했고, 어떻게 가공했는 지를 확인한다.

    데이터 유형 (범주형 (명목, 순서), 수치형(연속형, 비연속형)) 을 기준으로  
    필드에 대해 실제로 데이터는 어떤 datatype 으로 어떤 값 / 값 범위를 포함하고 있는지를 둘러본다. 

     


    2. 질문하기 🔥
    데이터로 어떤 것을 할 수 있나?  PM의 본 그라운드라고 할 수 있다.

    데이터에 대해 지식을 쌓는 작업이다. 

     


    3. 데이터 정비하기 
    데이터를 뜯어본다. 데이터 유형에 따라 다양하게 뜯어본다. 

    a. NA 데이터 확인
    NA 결측치를 버릴 것인지, 평균값으로 치환할 것인지를 정하고, 처리해준다. 

    b. 중복 데이터 확인
    중복 데이터는 삭제해준다.

    c. 데이터 구조 확인
    1 개의 invoice_number 에 대해 N 개의 product_code 에 대한 주문을 포함할 수 있다. 데이터는 invoice_number 와 product_code 단위로 row 를 이루고 있다. 

    d. 기타 가공이 필요한 데이터 확인
    pd.to_datetime / pd.to_numeric, 코드를 문자열로 등으로 값을 정리한다. 

     

    4. 답변하기
    데이터는 분포를 살펴보고, 

    a. 간단한 EDA (Exploratory Data Analysis)

    b. 데이터의 값의 분포나 상관관계를 확인한다.
    corr

    c. 질문에 대한 답변
    pivot_table, groupby 와 agg 

     

     

    5. 시각화하기

    a. 데이터 유형 조합별 통계 및 시각화 방법
    - 범주형 vs. 범주형: 교차테이블(cross table), mosaic plot (모자이크)
    - 범주형 vs. 수치형: 범주별 통계값, box plot (상자수염)
    - 수치형 vs. 수치형: 상관계수, scatter plot (산점도) 

    데이터 유형에 따른 적절한 시각화 자료를 채택하는 것이 중요하다. 

     

    5. 더 고민하기
    어떤 데이터가 더 있으면 좋을까?
    어떤 부분을 더 공부하면 좋을까?  👀 

     



     

    댓글

Designed by Tistory.