-
matplotlib 그래프 그리기 - 꺾은선 그래프데이터 분석/matplotlib 2022. 8. 15. 23:16
matplotlib 에서 제어가능한 여러 요소들을 해부해본다! matplotlib: 파이썬에서 차트나 플롯으로 데이터를 시각화하기 위한 모듈 - 그래프 종류: 산점도, 꺾은선 그래프, 막대 그래프, 히스토그램, 박스 플롯 0. font 설치 !sudo apt-get install -y fonts-nanum !sudo fc-cache -fv !rm ~/.cache/matplotlib -rf 출처: https://teddylee777.github.io/colab/colab-korean 1. 데이터 시각화의 대상, DataFrame 불러오기 import pandas as pd df = pd.read_csv('시간대별_상품판매량.csv', engine='python', encoding..
-
Pandas 집계 - pivot_table vs. groupby데이터 분석/Pandas 2022. 8. 15. 18:53
기본 통계량 확인 - 기본 통계량: describe() 조건에 따른 변수통계량을 요약한 테이블 - 출력물 자체가 결과물인 경우에는 pivot_talbe - 출력물이 중간 산출물인 경우에는 groupby (as_index=False) 즉, 우리는 groupby 를 많이 쓰게 될 것이다! describe() df.describe() pd.pivot_table() 데이터프레임, 행 조건, 열 조건, 집계대상 컬럼목록, 집계함수 pd.pivot_table( data=df, index='제품', columns='쇼핑몰 유형', values=['수량', '판매금액'], aggfunc='mean' ) df.pivot_table( index='제품', columns='쇼핑몰 유형', values=['수량', '판매금액..
-
pandas.DataFrame.replace, where, mask데이터 분석/Pandas 2022. 5. 24. 08:56
클러스터링 기법을 사용하기 위해 index 에 대한 피쳐를 붙인다. (결과: cluster_df) 이 때, replace 함수가 필요하다. number_of_order_per_CID = order_df.drop_duplicates( subset=['CustomerID', 'InvoiceNo'] )['CustomerID'].value_counts() # CustomerID 를 index 로 하는 Series cluster_df['주문횟수'] = cluster_df['CustomerID'].replace( number_of_order_per_CID.to_dict()) # CustomerID 를 CustomerID 의 주문횟수 값으로 치환 # 매칭되는 것이 없다면 CustomerID 값 유지 cluster_d..
-
10 minutes to pandas - Pivot Tables데이터 분석/Pandas 2022. 4. 1. 00:07
Pivot # 예시 pivoted = df.pivot(index="foo", columns="bar", values="baz") # 일반적인 용법 pivoted = df.pivot(index="date", columns="variable", values="value") pivot() will error with a ValueError: Index contains duplicate entries, cannot reshape if the index/column pair is not unique. In this case, consider using pivot_table() which is a generalization of pivot that can handle duplicate values for one i..
-
10 minutes to pandas - Reshaping데이터 분석/Pandas 2022. 3. 30. 23:13
Hierarchical Indexing (MultiIndex) In essence, it enables you to store and manipulate data with an arbitrary number of dimensions in lower dimensional data structures like Series (1d) and DataFrame (2d) MultiIndex 의 효용 The reason that the MultiIndex matters is that it can allow you to do grouping, selection when loading data from a file, you may wish to generate your own MultiIndex when preparin..
-
10 minutes to pandas - Group by (split - apply - combine)데이터 분석/Pandas 2022. 3. 29. 23:00
Group By 개요 Splitting the data into groups based on some criteria Applying a function to each group independently - Aggregation: 각 그룹에 대하여 요약통계를 처리할 수 있다. - Transformation: 그룹 특화 연산을 수행하고, 전체 데이터에 대해 그 값을 적용할 수 있다. - Filtration: 그룹 단위 연산으로 T/F 를 평가한다. True 인 대상을 추출할 수 있다. Combining the results into a data structure. Splitting an object into groups Groupby 를 독립적으로 이해하는 것이 중요하다. 주요기능 # 컬럼명의 값 기준으로..
-
10 minutes to pandas - Merge & Join데이터 분석/Pandas 2022. 3. 27. 15:10
Concat pd.concat( objs, axis=0, join="outer", ignore_index=False, keys=None, levels=None, names=None, verify_integrity=False, copy=True, ) 주요기능 objs: concat 대상 axis: concat 기준 join: concat 기준에 대해서 합집합 or 교집합 부가기능 ignore_index: concat 기준에 대해 인덱스 재정렬 여부 verify_integrity: 기준에 중복이 있을 경우 에러발생 keys: 데이터 출처를 나타내기 위한 Multi Index 처리 names: keys 에 대한 이름 동작원리 result = pd.concat([df1, df4], axis=1, join="in..
-
10 minutes to pandas - 결측치 처리데이터 분석/Pandas 2022. 3. 20. 16:43
Missing Data pandas primarily uses the value np.nan to represent missing data. It is by default not included in computations. Reindexing allows you to change/add/delete the index on a specified axis. 가장 중요한 포인트! NA 는 빼고 계산한다. df1 = df.reindex(index=dates[0:4], columns=list(df.columns) + ["E"]) In [56]: df1.loc[dates[0] : dates[1], "E"] = 1 In [57]: df1 Out[57]: A B C D F E 2013-01-01 0.000000 0...