-
Pandas 데이터 먼징 실습 2 - 날짜/시간 가공데이터 분석/Pandas 2020. 8. 27. 09:50
이 글은 p. 202 에 포함되어 있는 출생률 데이터 를 기준으로 작업한 것입니다. 포스트에서 사용되는 데이터는 주피터 노트북에서 아래 링크를 통해 다운받으실 수 있습니다. 이전 포스트 - Pandas 데이터 먼징 실습 1 [링크] 1. 데이터 요약 확인 2. 널값 NULL 처리 3. 이상치 Outlier 처리 4. 데이터타입 확인 및 변환 이번 포스트 목차 5. 날짜 형태 가공 6. 타임존 처리 5. 날짜 형태 가공 자주 추출하는 날짜형태를 미리 정리해놓는다. Pandas 는 날짜형태의 인덱스와 관련된 유용한 기능을 제공한다. 이전 포스트에서 1969 ~ 2008 년 기간동안의 일자별 출생률 데이터를 정리하였다. births 의 year, month, day 데이터는 날짜 데이터타입 파이썬 내장모듈 d..
-
Pandas 데이터 먼징 실습 1 - Null/Outlier 처리 및 데이터타입 변환데이터 분석/Pandas 2020. 8. 24. 11:44
이 글은 p. 202 에 포함되어 있는 출생률 데이터 를 기준으로 작업한 것입니다. 포스트에서 사용되는 데이터는 주피터 노트북에서 아래 링크를 통해 다운받으실 수 있습니다. !curl -0 https://raw.githubusercontent.com/jakevdp/data-CDCbirths/master/births.csv --output ./births.csv 사전에 필요한 프레임워크를 임포트합니다. 그리고 필요한 데이터를 가져와서 데이터프레임 객체로 할당합니다. import numpy as np import pandas as pd births = pd.read_csv('./births.csv') 이러면 실습 준비 완료! 지금부터 낯선 데이터에 대해서 데이터먼징하는 작업을 차근차근 살펴보겠습니다. :D ..
-
Pandas 병합과 조인 연산 (파이썬 데이터 사이언스 핸드북 예시)데이터 분석/Pandas 2020. 8. 20. 09:53
p.179 ~ 184 예제: 미국 주 데이터 이 글은 가지고 있는 데이터셋을 기준으로 유의미한 결과를 추출하기 위해서 어떤 과정을 거치는지를 정리하였습니다. 이 작업이 데이터를 다루는 좋은 습관을 형성하는 데 도움을 줄 것이라고 생각했습니다. Step 1. 목표 결과물 확인하기 목표 결과물: 2010년 인구 밀도 기준으로 미국 주와 지역 순위 계산 2010년 한정 인구밀도 (인구수 / 면적) 계산이 필요하다. state-population.csv 미국 주별 연도별 인구수 state-areas.csv 미국 주별 면적 state-abbreves.csv 미국 주와 주 약어코드 Step 2. 가지고 있는 데이터셋 확인하기 1. 데이터를 스캔하여 컬럼명을 확인한다. 3. 기대결과를 추출하기 위해 필요한 컬럼을 확..
-
Pandas 데이터 세트 결합하기: 병합과 조인데이터 분석/Pandas 2020. 8. 13. 07:16
Pandas 공식 User Guide 에서도 확인할 수 있다. - 선수지식: SQL JOIN Merge, join, concatenate and compare https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html Merge, join, concatenate and compare — pandas 1.1.0 documentation pandas has full-featured, high performance in-memory join operations idiomatically very similar to relational databases like SQL. These methods perform significantly better (..
-
Pandas 누락값 처리 - Handling Missing Values IN Python데이터 분석/Pandas 2020. 8. 8. 08:31
누락 값 처리하는 4가지 스킬 누락을 발견하고, 누락 규모 파악하고, 누락값을 채우거나 버리는 작업이 필요하다. Discovering missing values : isnull(), notnull() Counting missing values : isnull().sum() Filling in for missing values : fillna(), interpolate() Filtering out missing values : dropna() How to Identify and Drop Null Values | Handling Missing Values in Python 이 영상은 누락 값을 파악하고, 필터링하는 방법을 서술한 영상이다. 인도분이라 발음이 조금 힘들 수는 있지만 듣다보면 익숙해질 정도이고,..
-
Pandas 데이터 연산하기 (NULL 처리 포함)데이터 분석/Pandas 2020. 6. 27. 22:26
유니버셜 함수는 - 단항연산의 경우 인덱스와 열 레이블을 보존하고 - 이항연산의 경우 자동으로 인덱스를 정렬한다. --> 불완전한 데이터로 작업할 때 매우 편리하다. Series 에서 인덱스 정렬 + 산술연산을 하면, 둘 중 하나라도 값이 없는 항목은 NaN (Not a Number) 으로 표시된다. 만약 NaN 값 사용을 원치 않을 경우, 연산자 대신 적절한 객체 메서드를 사용해 채우기 값을 수정할 수있다. fill_value DataFrame 에서 인덱스 정렬 DataFrame 에서 연산을 수행할 때 열과 인덱스 모두에서 비슷한 유형의 정렬이 발생한다. pandas.DataFrame.stack multi-level index 를 가지도록 형태를 변환해서 반환한다. 산술연산에 대한 객체메서드 + add..
-
데이터 인덱싱과 선택 - DataFrame데이터 분석/Pandas 2020. 6. 15. 00:12
NumPy 인덱싱 복습 NumPy 배열의 값에 접근하고 그 값을 설정하고 수정하는 메서드와 도구들 인덱싱 arr[2,1] 인덱스 단일 스칼라 슬라이싱 arr [:, 1:5] 인덱스 범위 마스킹 arr[arr>0] 인덱스 조건을 전달 팬시 인덱싱 arr[0, [1,5]] 인덱스 배열을 전달 Dataframe 인덱싱과 선택 DataFrame 은 여러 면에서 2차원 배열이나 구조화된 배열과 비슷하고, 다른 면에서는 동일 인덱스를 공유하는 Series 구조체의 딕셔너리와 비슷하다. 스프레드시트의 표 형식의 데이터를 생각하면 된다. Two-dimensional, size-mutable, potentially heterogeneous tabular data. DataFrame 에 단일 인덱스, 인덱스 배열을 전달하..
-
데이터 인덱싱과 선택 - Series데이터 분석/Pandas 2020. 6. 13. 11:07
NumPy 인덱싱 복습 NumPy 배열의 값에 접근하고 그 값을 설정하고 수정하는 메서드와 도구들 인덱싱 arr[2,1] 인덱스 단일 스칼라 슬라이싱 arr [:, 1:5] 인덱스 범위 마스킹 arr[arr>0] 인덱스 조건을 전달 팬시 인덱싱 arr[0, [1,5]] 인덱스 배열을 전달 Series 1. Series 의 데이터 선택 1차원 NumPy 배열과 표준 파이썬 딕셔너리*처럼 동작한다. 더보기 딕셔너리 설명 사람은 누구든지 "이름" = "홍길동", "생일" = "몇 월 몇 일" 등으로 구별할 수 있다. 파이썬은 영리하게도 이러한 대응 관계를 나타낼 수 있는 자료형을 가지고 있다. 요즘 사용하는 대부분의 언어도 이러한 대응 관계를 나타내는 자료형을 갖고 있는데, 이를 연관 배열(Associativ..