-
matplotlib 그래프 그리기 - 꺾은선 그래프데이터 분석/matplotlib 2022. 8. 15. 23:16
matplotlib 에서 제어가능한 여러 요소들을 해부해본다! matplotlib: 파이썬에서 차트나 플롯으로 데이터를 시각화하기 위한 모듈 - 그래프 종류: 산점도, 꺾은선 그래프, 막대 그래프, 히스토그램, 박스 플롯 0. font 설치 !sudo apt-get install -y fonts-nanum !sudo fc-cache -fv !rm ~/.cache/matplotlib -rf 출처: https://teddylee777.github.io/colab/colab-korean 1. 데이터 시각화의 대상, DataFrame 불러오기 import pandas as pd df = pd.read_csv('시간대별_상품판매량.csv', engine='python', encoding..
-
Pandas 집계 - pivot_table vs. groupby데이터 분석/Pandas 2022. 8. 15. 18:53
기본 통계량 확인 - 기본 통계량: describe() 조건에 따른 변수통계량을 요약한 테이블 - 출력물 자체가 결과물인 경우에는 pivot_talbe - 출력물이 중간 산출물인 경우에는 groupby (as_index=False) 즉, 우리는 groupby 를 많이 쓰게 될 것이다! describe() df.describe() pd.pivot_table() 데이터프레임, 행 조건, 열 조건, 집계대상 컬럼목록, 집계함수 pd.pivot_table( data=df, index='제품', columns='쇼핑몰 유형', values=['수량', '판매금액'], aggfunc='mean' ) df.pivot_table( index='제품', columns='쇼핑몰 유형', values=['수량', '판매금액..
-
File handling개발입문/개발환경 세팅 2022. 8. 15. 17:04
다양한 local file 에 대해서 file handling 을 하게 된다. Tabular 표 형식의 데이터인 .csv, .xlsx 를 불러오고, 읽는 과정을 학습한다. File Handling # data 초기화 header = [] data = [] # file 읽기 with open('./data_reading.csv', 'r') as f: header = f.readline() line = f.readline() while line: data.append(list(map(float, line.split(',')))) line = f.readline() # file 작성하기 with open('./written_data.csv', 'w') as f: f.write(header) for line i..
-
Google Colab 에서 Github 로 코드 저장하기개발입문/개발환경 세팅 2022. 8. 15. 13:33
기존에는 매번 Google Colab 에서 노트북을 만들었다 지웠다 했다. 1. 누적되는 산출물로 관리하고 싶었다. 내가 어떤 공부를 했는지, 산출물을 관리했는지 확인하기 어려웠다. 2. 나도 블로그에서 github example code 를 제공해보고 싶었다. 그래서 나도 Github Repository 에 저장해보기로 했다. 1. GitHub 계정 만들기 https://github.com/ 2. Github Repository 생성 저는 Halora 계정에 ds 라는 Private Repository 를 생성했습니다. Repository 란 일종의 작업공간입니다. Repository 프로젝트 파일과 각 파일의 수정 히스토리를 담고 있습니다. https://github.com/halora/ds 3. G..
-
PM, 회사를 떠나고 싶지만 지금이 아닌 이유 4가지하루 한줄 일기/IT 기획자의 잡생각 2022. 6. 6. 11:44
내가 성장하지 못한다는 압박감이 계속되고 있다. 내가 기술을 쌓아올리는 동안에 비즈니스 가치를 창출하는 데 기여했는지 확신이 서지 않는다. 누구보다 열심히 일했는데, 확신이 서지 않으니 공허감이 찾아온다. 난 항상 왜 이렇게 현실에 만족하지 못하고, 불안한걸까? 그걸 왜 항상 공부라는 방법으로 채우려고 하는 걸까? 인생살기 피곤하게. 하지만 부정적인 감정에 근거한 사람들은 그걸 발판으로 삼아 자신을 성장시킨다고 했다. 꼭 나쁘게 볼 것만은 아니라고 하는 그 말이 위안이 되었다. 애초에 무엇을 안해서 생기는 불안이라면, 그냥 하면 그만이다. 적어도 무언가를 하고 있는 순간에는 불안하지 않으니까. 나는 30대 초반이다. 아직 최소 20년을 더 일할 수 있다. 조급해 하지 말자. 좋은 방향 설정이 중요하다. ..
-
pandas.DataFrame.replace, where, mask데이터 분석/Pandas 2022. 5. 24. 08:56
클러스터링 기법을 사용하기 위해 index 에 대한 피쳐를 붙인다. (결과: cluster_df) 이 때, replace 함수가 필요하다. number_of_order_per_CID = order_df.drop_duplicates( subset=['CustomerID', 'InvoiceNo'] )['CustomerID'].value_counts() # CustomerID 를 index 로 하는 Series cluster_df['주문횟수'] = cluster_df['CustomerID'].replace( number_of_order_per_CID.to_dict()) # CustomerID 를 CustomerID 의 주문횟수 값으로 치환 # 매칭되는 것이 없다면 CustomerID 값 유지 cluster_d..
-
서비스팀과 데이터팀 TF, 왜 망했을까?하루 한줄 일기/IT 기획자의 잡생각 2022. 4. 9. 23:01
너무 정확한 진단이다. 용두사미의 전사 TF 가 떠오른다. 휴. 패스트 캠퍼스 의 안중호 강사님의 슬라이드 중 가장 공감되었든 슬라이드 조각이다. Q. 그 많던 TF 는 왜 망했을까? A. 서로 다른 부서에 대한 기대치가 높고, 만나야하는 접점을 만나지 못했기 때문. 망한 TF 의 망한 이유는 첫 문장 "첫번째 고민을 듣는다." 부터 삐걱댔다. (그러다가 조직논리로 폭파) 분석가 입장에서 당시에는 많은 가설들을 기대했는데, 인풋이 없어서 당황스러웠다. 생각해보니까.. 현업 담당자들은 데이터 분석이 뿅 하고 나타나기를 기대하고 있었던 것일지도. 그래서 기다리다 어영부영 시간이 지났다. (굳이 거기서 질문하지 않아도 바쁜게 많았고.) 그리고 조직논리로 TF 는 해체되었다. Q. 기술부서 담당자로서 어떻게 마..
-
10 minutes to pandas - Pivot Tables데이터 분석/Pandas 2022. 4. 1. 00:07
Pivot # 예시 pivoted = df.pivot(index="foo", columns="bar", values="baz") # 일반적인 용법 pivoted = df.pivot(index="date", columns="variable", values="value") pivot() will error with a ValueError: Index contains duplicate entries, cannot reshape if the index/column pair is not unique. In this case, consider using pivot_table() which is a generalization of pivot that can handle duplicate values for one i..