-
Pandas 누락값 처리 - Handling Missing Values IN Python데이터 분석/Pandas 2020. 8. 8. 08:31
누락 값 처리하는 4가지 스킬 누락을 발견하고, 누락 규모 파악하고, 누락값을 채우거나 버리는 작업이 필요하다. Discovering missing values : isnull(), notnull() Counting missing values : isnull().sum() Filling in for missing values : fillna(), interpolate() Filtering out missing values : dropna() How to Identify and Drop Null Values | Handling Missing Values in Python 이 영상은 누락 값을 파악하고, 필터링하는 방법을 서술한 영상이다. 인도분이라 발음이 조금 힘들 수는 있지만 듣다보면 익숙해질 정도이고,..
-
7년차 PM 의 커리어 고민 - 2020하루 한줄 일기/IT 기획자의 잡생각 2020. 8. 1. 09:50
나는 Back-end Platform PM 이다. 개발자분들이 개발 셋을 가지고 있는 것처럼 백엔드 PM 은 개발 셋을 이해하는 기술(?) 을 가지고 있어야 한다고 생각한다. 나는 IT 산업의 가치가 마음에 들었다. PM 업무를 하던 하루하루가 흥미로웠고, 돈벌이 이상의 의미였다. 미래에도 IT 산업에 기여하고 싶었다. 하지만 통상 PM 의 수명이 40대 초반 정도에 끝난다고들 했다. 그 이후에는? 사업이나 전략 직군으로 전환한다는 얘기도 많았다. PM 의 역할은 소위 어르신들이 하기에 너무 구질구질한 일이라고들 했다. 맞는 말일지도. 사실 프로덕트 구현은 바람 잘 날이 없어서 외부에서 기대하는 것만큼 멋있는 일들만 하는 것은 아니다. 5% 의 멋있는 결정을 하기 위해 25 % 의 매 순간에 놓이는 의사..
-
Pandas 데이터 연산하기 (NULL 처리 포함)데이터 분석/Pandas 2020. 6. 27. 22:26
유니버셜 함수는 - 단항연산의 경우 인덱스와 열 레이블을 보존하고 - 이항연산의 경우 자동으로 인덱스를 정렬한다. --> 불완전한 데이터로 작업할 때 매우 편리하다. Series 에서 인덱스 정렬 + 산술연산을 하면, 둘 중 하나라도 값이 없는 항목은 NaN (Not a Number) 으로 표시된다. 만약 NaN 값 사용을 원치 않을 경우, 연산자 대신 적절한 객체 메서드를 사용해 채우기 값을 수정할 수있다. fill_value DataFrame 에서 인덱스 정렬 DataFrame 에서 연산을 수행할 때 열과 인덱스 모두에서 비슷한 유형의 정렬이 발생한다. pandas.DataFrame.stack multi-level index 를 가지도록 형태를 변환해서 반환한다. 산술연산에 대한 객체메서드 + add..
-
데이터 인덱싱과 선택 - DataFrame데이터 분석/Pandas 2020. 6. 15. 00:12
NumPy 인덱싱 복습 NumPy 배열의 값에 접근하고 그 값을 설정하고 수정하는 메서드와 도구들 인덱싱 arr[2,1] 인덱스 단일 스칼라 슬라이싱 arr [:, 1:5] 인덱스 범위 마스킹 arr[arr>0] 인덱스 조건을 전달 팬시 인덱싱 arr[0, [1,5]] 인덱스 배열을 전달 Dataframe 인덱싱과 선택 DataFrame 은 여러 면에서 2차원 배열이나 구조화된 배열과 비슷하고, 다른 면에서는 동일 인덱스를 공유하는 Series 구조체의 딕셔너리와 비슷하다. 스프레드시트의 표 형식의 데이터를 생각하면 된다. Two-dimensional, size-mutable, potentially heterogeneous tabular data. DataFrame 에 단일 인덱스, 인덱스 배열을 전달하..
-
데이터 인덱싱과 선택 - Series데이터 분석/Pandas 2020. 6. 13. 11:07
NumPy 인덱싱 복습 NumPy 배열의 값에 접근하고 그 값을 설정하고 수정하는 메서드와 도구들 인덱싱 arr[2,1] 인덱스 단일 스칼라 슬라이싱 arr [:, 1:5] 인덱스 범위 마스킹 arr[arr>0] 인덱스 조건을 전달 팬시 인덱싱 arr[0, [1,5]] 인덱스 배열을 전달 Series 1. Series 의 데이터 선택 1차원 NumPy 배열과 표준 파이썬 딕셔너리*처럼 동작한다. 더보기 딕셔너리 설명 사람은 누구든지 "이름" = "홍길동", "생일" = "몇 월 몇 일" 등으로 구별할 수 있다. 파이썬은 영리하게도 이러한 대응 관계를 나타낼 수 있는 자료형을 가지고 있다. 요즘 사용하는 대부분의 언어도 이러한 대응 관계를 나타내는 자료형을 갖고 있는데, 이를 연관 배열(Associativ..
-
Pandas 객체 소개 - Index데이터 분석/Pandas 2020. 6. 7. 14:25
Pandas Index 객체 Index 객체는 그 자체로 흥미로운 구조체이며 불변의 배열이나 정렬된 집합 (중복 허용) 으로 볼 수 있다. Index: 불변의 배열 Index 객체는 여러 면에서 배열처럼 동작한다. Index 객체는 NumPy배열에서 익숙한 속성이 많이 있다. 단, Index 객체는 일반적인 방법으로는 변경될 수 없는 불변의 값이다! Immutable 이 불변성 덕분에 예기치 않은 인덱스 변경으로 인한 부작용 없이 여러 DataFrame 과 배열 사이에서 인덱스를 더 안전하게 공유할 수 있다. Index: 정렬된 집합 Pandas 객체는 집합 연산의 여러 측면에 의존하는 데이터 세트 간의 조인과 같은 연산을 할 수 있게 하려고 고안되었다. 그래서 합집합, 교집합, 차집합을 비롯해 그 밖의..
-
Pandas 객체 소개 - DataFrame데이터 분석/Pandas 2020. 6. 7. 14:16
Series: 유연한 인덱스를 가지는 1차원 배열 DataFrame: 유연한 행 인덱스와 유연한 열 이름 (인덱스)을 가진 2차원 배열 Pandas DataFrame 객체 DataFrame 은 정렬된 Series 객체의 연속으로 볼 수 있다. 즉, 같은 인덱스를 공유하는 Series 객체의 조합이다. - 행 인덱스: 도시이름 공유 - 열 인덱스: (도시 단위) 인구수, (도시 단위) 면적 실제로 행과 열 모두 인덱스 객체이다. DataFrame: 특수한 딕셔너리 이렇게 행이름을 기준으로 Series 를 반환한다. DataFrame 객체 구성하기 단일 Series 객체에서 구성하기 DataFrame 은 Series 객체의 집합체로서 열 하나짜리 DataFrame 은 단일 Series 로부터 구성할 수 있다..
-
Pandas 객체 소개 - Series데이터 분석/Pandas 2020. 6. 7. 13:36
Pandas 튜토리얼 및 다큐멘테이션을 펴놓고 시작! http://pandas.pydata.org/ pandas - Python Data Analysis Library pandas pandas is a fast, powerful, flexible and easy to use open source data analysis and manipulation tool, built on top of the Python programming language. Install pandas now! pandas.pydata.org Pandas 의 세 가지 기본 자료구조인 Series, DataFrame, Index 에 대해 알아보자. Pandas Series 객체 Pandas Series 는 인덱싱된 데이터의 1차원 배열..