-
10 minutes to pandas - Reshaping데이터 분석/Pandas 2022. 3. 30. 23:13
Hierarchical Indexing (MultiIndex) In essence, it enables you to store and manipulate data with an arbitrary number of dimensions in lower dimensional data structures like Series (1d) and DataFrame (2d) MultiIndex 의 효용 The reason that the MultiIndex matters is that it can allow you to do grouping, selection when loading data from a file, you may wish to generate your own MultiIndex when preparin..
-
10 minutes to pandas - Group by (split - apply - combine)데이터 분석/Pandas 2022. 3. 29. 23:00
Group By 개요 Splitting the data into groups based on some criteria Applying a function to each group independently - Aggregation: 각 그룹에 대하여 요약통계를 처리할 수 있다. - Transformation: 그룹 특화 연산을 수행하고, 전체 데이터에 대해 그 값을 적용할 수 있다. - Filtration: 그룹 단위 연산으로 T/F 를 평가한다. True 인 대상을 추출할 수 있다. Combining the results into a data structure. Splitting an object into groups Groupby 를 독립적으로 이해하는 것이 중요하다. 주요기능 # 컬럼명의 값 기준으로..
-
10 minutes to pandas - Merge & Join데이터 분석/Pandas 2022. 3. 27. 15:10
Concat pd.concat( objs, axis=0, join="outer", ignore_index=False, keys=None, levels=None, names=None, verify_integrity=False, copy=True, ) 주요기능 objs: concat 대상 axis: concat 기준 join: concat 기준에 대해서 합집합 or 교집합 부가기능 ignore_index: concat 기준에 대해 인덱스 재정렬 여부 verify_integrity: 기준에 중복이 있을 경우 에러발생 keys: 데이터 출처를 나타내기 위한 Multi Index 처리 names: keys 에 대한 이름 동작원리 result = pd.concat([df1, df4], axis=1, join="in..
-
10 minutes to pandas - 결측치 처리데이터 분석/Pandas 2022. 3. 20. 16:43
Missing Data pandas primarily uses the value np.nan to represent missing data. It is by default not included in computations. Reindexing allows you to change/add/delete the index on a specified axis. 가장 중요한 포인트! NA 는 빼고 계산한다. df1 = df.reindex(index=dates[0:4], columns=list(df.columns) + ["E"]) In [56]: df1.loc[dates[0] : dates[1], "E"] = 1 In [57]: df1 Out[57]: A B C D F E 2013-01-01 0.000000 0...
-
10 minutes to pandas - 생성 & 조회/변경데이터 분석/Pandas 2022. 3. 19. 22:09
Object Creation Series One-dimensional ndarray with axis labels (including time series). The object supports both integer- and label-based indexing DataFrame Two-dimensional, size-mutable, potentially heterogeneous tabular data. Data structure also contains labeled axes (rows and columns). Can be thought of as a dict-like container for Series objects. DataFrame 은 Column 단위로 Series 를 엮었다고 생각하면 된다..
-
Python 데이터 분석 과정 5가지하루 한줄 일기/IT 기획자의 잡생각 2022. 3. 19. 15:24
데이터 분석 실습 with Python 패스트 캠퍼스 한 번에 끝내는 데이터 분석 초격차 패키지 Online 이 수업은 이론과 실습을 반복해서 좋다. 매번 조금씩 끄적거리다 포기한 내용을 차근차근 따라할 수 있게 해준다. Python 실습 부분 이나원 쌤이 노하우를 밝히기를 반복만이 생명이라고. 아래 반복과정을 숙지시켜서, 업무에 적용해보기로 한다. 1년 후의 나는 지금의 나보다 Data Literacy 가 늘기를 기원해본다. 너무 어려울 때에도 아래 5가지를 차근히 돌아볼 수 있도록 습관을 들여보자. 아래 5가지 과정을 반복하다보면, 역량과 자신감이 쌓여있을 것이다. 1. 데이터 파악하기 2. 질문하기 3. 데이터 정비하기 4. 답변하기 5. 시각화하기 1. 데이터 파악하기 데이터에 대한 설명을 읽는다..
-
[PM/PO] Hello World, ML편하루 한줄 일기/IT 기획자의 잡생각 2022. 3. 16. 17:03
IT PM 중, hello world 출력해보지 않은 PM 은 없을 것이라고 생각한다. 그리고 요새는 막연한 마법과 같은 단어: AI / Machine Learning / Deep Learning 를 어떻게 활용해야하는지 애를 먹는 분들이 많을것이라고 생각한다. 나도 막연하게 ML 에 대한 환상이 있는 PM 중에 하나. 그래서 ML 로 가장 유명한 Tensorflow 가이드를 살펴보기 시작했다. 그리고 굉장히 쉽다! ML의 정체가 궁금하신 분들은 꼭 아래 Tutorial 을 해보시기를. 한글이 지원되고, 딱 20분만 소요하면 된다. https://developers.google.com/codelabs/tensorflow-1-helloworld#0 Say hello to the "Hello, World" ..
-
행동과학을 위한 기초 통계학 | 제 9장. 단일표본 t 검증과 대응표본 t 검증통계 공부 2022. 2. 20. 14:17
단일표본 t검증(single-sample t test), 대응표본 t검증(paired-sample t test) 자유도(degree of freedom), t 통계치*t statistic) 순서효과(order effect), 역균형화(conterbalancing) t 분포 9.1. 언제 t분포를 사용해야 하는가? 전집 표준편차를 모르면서 두 집단을 비교할 때 t 분포를 사용하여야 한다. 9.2. t 검증을 사용할 때 표준편차를 계산하는 공식에 교정을 가하는 이유는 무엇인가? 표본은 전집보다 변산이 낮을 가능성이 있다. n 대신에 N-1 을 분모로 사용하여 편차제곱의 평균을 얻는다. 9.3. t 검증에서의 표준오차 계산은 z 검증에서의 계산과 어떻게 다른가? 두 검증 모두에서 표준오차는 표준편차를 사례 수..