-
Pandas 데이터 먼징 실습 2 - 날짜/시간 가공데이터 분석/Pandas 2020. 8. 27. 09:50
이 글은 <파이썬 데이터 사이언스 핸드북> p. 202 에 포함되어 있는 출생률 데이터 를 기준으로 작업한 것입니다.
포스트에서 사용되는 데이터는 주피터 노트북에서 아래 링크를 통해 다운받으실 수 있습니다.이전 포스트 - Pandas 데이터 먼징 실습 1 [링크]
1. 데이터 요약 확인
2. 널값 NULL 처리
3. 이상치 Outlier 처리
4. 데이터타입 확인 및 변환이번 포스트 목차
5. 날짜 형태 가공
6. 타임존 처리
5. 날짜 형태 가공
자주 추출하는 날짜형태를 미리 정리해놓는다.
Pandas 는 날짜형태의 인덱스와 관련된 유용한 기능을 제공한다.이전 포스트에서 1969 ~ 2008 년 기간동안의 일자별 출생률 데이터를 정리하였다.
births 의 year, month, day 데이터는 날짜 데이터타입 파이썬 내장모듈 datetime64 으로 치환할 수 있다.
Pandas 는 파이썬 내장모듈 datetime64 객체를 인덱스로 활용하는 pandas.DatetimeIndex 를 제공한다.
pandas.DatetimeIndex 를 통하여 날짜 형태의 값을 인덱스로 사용할 때 제어할 수 있는 다양한 방식을 제공한다.
이후에 요일, 10년 단위 기준으로 데이터를 보고 싶을 수도 있으니까, 요일, 10년 단위도 추가한다.
정리 끝.
6. 타임존 처리
Timestamp 의 경우에는 tz 타임존 이슈도 중요하다.
일반적으로 UTC 를 적용하며, tz 을 명시적으로 설정하기도 하고, local tz (클라이언트 컴퓨터의 로컬 타임존) 을 따르기도 한다.
타임존이 없는 DatetimeIndex
timezone 을 설정할 필요가 없을 경우 사용한다.
- 일자 데이터라서 시간대가 중요하지 않거나
- 사용자 어플리케이션에서 사용하지 않아서 기준시간대만 제대로 명시해주면 되는 경우DatetimeIndex.tz_localize
timezone 을 명시적으로 설정해야하는 경우 사용한다.
- DB 에는 특정 타임존 (일반적으로 UTC) 기준으로 저장하는 경우 활용한다.DatetimeIndex.tz_convert
명시적인 타임존을 다른 타임존으로 보여줘야할 때 사용한다.
- (DB 에 저장된) 기존 타임존이 설정된 DatetimeIndex 에 대해서 다른 타임존 형태의 데이터를 반환할 때 사용한다.
- 기존 타임존이 설정된 DatetimeIndex 원본은 유지된다.
날짜, 타임존은 데이터의 핵심이기 때문에 조금 더 열심히 다뤄보았다. ㅇ_ㅇb
'데이터 분석 > Pandas' 카테고리의 다른 글
10 minutes to pandas - 결측치 처리 (0) 2022.03.20 10 minutes to pandas - 생성 & 조회/변경 (0) 2022.03.19 Pandas 데이터 먼징 실습 1 - Null/Outlier 처리 및 데이터타입 변환 (0) 2020.08.24 Pandas 병합과 조인 연산 (파이썬 데이터 사이언스 핸드북 예시) (0) 2020.08.20 Pandas 데이터 세트 결합하기: 병합과 조인 (0) 2020.08.13