ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • Pandas 데이터 먼징 실습 2 - 날짜/시간 가공
    데이터 분석/Pandas 2020. 8. 27. 09:50

     

    이 글은 <파이썬 데이터 사이언스 핸드북> p. 202 에 포함되어 있는 출생률 데이터 를 기준으로 작업한 것입니다.
    포스트에서 사용되는 데이터는 주피터 노트북에서 아래 링크를 통해 다운받으실 수 있습니다. 

    이전 포스트 - Pandas 데이터 먼징 실습 1 [링크]
    1. 데이터 요약 확인
    2. 널값 NULL 처리
    3. 이상치 Outlier 처리
    4. 데이터타입 확인 및 변환

     

    이번 포스트 목차

    5. 날짜 형태 가공
    6. 타임존 처리

     

     


    5. 날짜 형태 가공

    자주 추출하는 날짜형태를 미리 정리해놓는다.
    Pandas 는 날짜형태의 인덱스와 관련된 유용한 기능을 제공한다. 

    이전 포스트에서 1969 ~ 2008 년 기간동안의 일자별 출생률 데이터를 정리하였다. 

     

    births 의 year, month, day 데이터는 날짜 데이터타입 파이썬 내장모듈 datetime64 으로 치환할 수 있다. 

    Pandas 는 파이썬 내장모듈 datetime64 객체를 인덱스로 활용하는 pandas.DatetimeIndex 를 제공한다. 

     

     

    pandas.DatetimeIndex 를 통하여 날짜 형태의 값을 인덱스로 사용할 때 제어할 수 있는 다양한 방식을 제공한다.

    이후에 요일, 10년 단위 기준으로 데이터를 보고 싶을 수도 있으니까, 요일, 10년 단위도 추가한다. 

     

    정리 끝.

     

    6. 타임존 처리

     

    Timestamp 의 경우에는 tz 타임존 이슈도 중요하다.

    일반적으로 UTC 를 적용하며, tz 을 명시적으로 설정하기도 하고, local tz (클라이언트 컴퓨터의 로컬 타임존) 을 따르기도 한다. 

     

    타임존이 없는 DatetimeIndex 

    timezone 을 설정할 필요가 없을 경우 사용한다. 
    - 일자 데이터라서 시간대가 중요하지 않거나
    - 사용자 어플리케이션에서 사용하지 않아서 기준시간대만 제대로 명시해주면 되는 경우

     

    DatetimeIndex.tz_localize

    timezone 을 명시적으로 설정해야하는 경우 사용한다.
    -  DB 에는 특정 타임존 (일반적으로 UTC) 기준으로 저장하는 경우 활용한다.

     

    DatetimeIndex.tz_convert


    명시적인 타임존을 다른 타임존으로 보여줘야할 때 사용한다. 
    - (DB 에 저장된)
    기존 타임존이 설정된 DatetimeIndex 에 대해서 다른 타임존 형태의 데이터를 반환할 때 사용한다. 
    - 기존 타임존이 설정된 DatetimeIndex 원본은 유지된다. 

     


     

    날짜, 타임존은 데이터의 핵심이기 때문에 조금 더 열심히 다뤄보았다. ㅇ_ㅇb

    댓글

Designed by Tistory.