-
pandas.DataFrame.replace, where, mask데이터 분석/Pandas 2022. 5. 24. 08:56
클러스터링 기법을 사용하기 위해 index 에 대한 피쳐를 붙인다. (결과: cluster_df) 이 때, replace 함수가 필요하다. number_of_order_per_CID = order_df.drop_duplicates( subset=['CustomerID', 'InvoiceNo'] )['CustomerID'].value_counts() # CustomerID 를 index 로 하는 Series cluster_df['주문횟수'] = cluster_df['CustomerID'].replace( number_of_order_per_CID.to_dict()) # CustomerID 를 CustomerID 의 주문횟수 값으로 치환 # 매칭되는 것이 없다면 CustomerID 값 유지 cluster_d..
-
Pandas 데이터 먼징 실습 1 - Null/Outlier 처리 및 데이터타입 변환데이터 분석/Pandas 2020. 8. 24. 11:44
이 글은 p. 202 에 포함되어 있는 출생률 데이터 를 기준으로 작업한 것입니다. 포스트에서 사용되는 데이터는 주피터 노트북에서 아래 링크를 통해 다운받으실 수 있습니다. !curl -0 https://raw.githubusercontent.com/jakevdp/data-CDCbirths/master/births.csv --output ./births.csv 사전에 필요한 프레임워크를 임포트합니다. 그리고 필요한 데이터를 가져와서 데이터프레임 객체로 할당합니다. import numpy as np import pandas as pd births = pd.read_csv('./births.csv') 이러면 실습 준비 완료! 지금부터 낯선 데이터에 대해서 데이터먼징하는 작업을 차근차근 살펴보겠습니다. :D ..