-
Pandas 객체 소개 - DataFrame데이터 분석/Pandas 2020. 6. 7. 14:16
Series: 유연한 인덱스를 가지는 1차원 배열 DataFrame: 유연한 행 인덱스와 유연한 열 이름 (인덱스)을 가진 2차원 배열 Pandas DataFrame 객체 DataFrame 은 정렬된 Series 객체의 연속으로 볼 수 있다. 즉, 같은 인덱스를 공유하는 Series 객체의 조합이다. - 행 인덱스: 도시이름 공유 - 열 인덱스: (도시 단위) 인구수, (도시 단위) 면적 실제로 행과 열 모두 인덱스 객체이다. DataFrame: 특수한 딕셔너리 이렇게 행이름을 기준으로 Series 를 반환한다. DataFrame 객체 구성하기 단일 Series 객체에서 구성하기 DataFrame 은 Series 객체의 집합체로서 열 하나짜리 DataFrame 은 단일 Series 로부터 구성할 수 있다..
-
Pandas 객체 소개 - Series데이터 분석/Pandas 2020. 6. 7. 13:36
Pandas 튜토리얼 및 다큐멘테이션을 펴놓고 시작! http://pandas.pydata.org/ pandas - Python Data Analysis Library pandas pandas is a fast, powerful, flexible and easy to use open source data analysis and manipulation tool, built on top of the Python programming language. Install pandas now! pandas.pydata.org Pandas 의 세 가지 기본 자료구조인 Series, DataFrame, Index 에 대해 알아보자. Pandas Series 객체 Pandas Series 는 인덱싱된 데이터의 1차원 배열..
-
파이썬 데이터사이언스 핸드북 2 장 - 팬시 인덱싱데이터 분석/NumPy 2020. 5. 31. 14:34
배열의 일부에 접근하고 수정하는 법 중 팬시 인덱싱에 대해 포스팅한다. - 간단 인덱스 arr[0] - 슬라이싱 arr[:5] - 부울 마스크 arr[arr>0] - 팬시 인덱싱 arr[[3,7,2]] 팬시 인덱싱 팬시 인덱싱은 단순 인덱싱과 비슷하지만, 단일 스칼라 대신 인덱스 배열을 전달한다. 이로써 복잡한 배열 값의 하위 집합에 매우 빠르게 접근해 그것을 수정할 수 있다. 한 번에 여러 배열 요소에 접근하기 위해 인덱스의 배열을 전달한다. (...) 팬시 인덱싱을 이용하면 결과의 형상이 인덱싱 대상 배열의 형상이 아니라, 인덱스 배열의 형상을 반영한다. 표준 인덱싱을 사용할 때와 마찬가지로 첫 번째 인덱스는 행을 말하며, 두 번째 인덱스는 열을 말한다. 팬시 인덱싱에서 인덱스 쌍을 만드는 것도 브로..
-
파이썬 데이터사이언스 핸드북 2 장 - 비교연산, 논리연산으로 부울배열을 만들고 마스킹 연산하자.데이터 분석/NumPy 2020. 5. 31. 13:16
비교연산자와 논리연산자를 모른다면 더보기 클릭 비교연산자, 논리연산자 각각에 해당하는 ufunc 가 있다. 더보기 비교연산자 +, -, *, / 산술연산자 외에도 비교연산자도 활용할 수 있다. 물론 N차원 배열에 대해서도 비교연산자를 사용할 수 있다. 물론 N차원 배열에 대해서도 비교연산자를 사용할 수 있다. 논리 연산자 부울 연산자 여러 조건을 조합하고 싶다면, 파이썬의 비트 단위 논리 연산자 &, |, ^, ~ 를 사용할 수 있다. 표준 산술 연산자와 마찬가지로 NumPy 는 이 연산자를 일반적으로 부울 배열의 요소 단위로 동작하는 유니버셜 함수로 오버로딩한다. &/| 를 정수에 사용할 때 표현식은 그 요소의 비트에 대해 동작하므로 그 숫자를 구성하는 개별 비트 단위로 and 와 or 을 적용하는 것..
-
파이썬 데이터사이언스 핸드북 2장 - Numpy 집계데이터 분석/NumPy 2020. 5. 24. 12:25
NumPy 집계가 빠르다!!! NumPy 배열에서 쓸 수 있는 빠른 내장 집계 함수 Python 내장함수 sum 과 NumPy 내장함수 sum 은 매우 유사하다. 그러나 NumPy 내장함수 sum 이 컴파일된 코드에서 실행되기 때문에 더 빠르다. min, max, sum 을 비롯한 다른 여러 NumPy 집계함수의 경우, 배열 객체 자체의 메서드를 사용하는 더 짧은 구문이 존재한다. NumPy 다차원 집계 NumPy 의 결과물은 Scalar 또는 NdArray 이다. 즉 Dimension 차원이란 개념을 가진다. 집계 연산의 보편적인 유형은 행이나 열을 기준으로 집계하는 것이다. 엑셀 스프레드시트를 떠올려보면 쉽다. 예를 들어 직원정보를 관리한다고 했을 때, 한 명의 직원에 대해서, 사번, 이름, 부서, ..
-
파이썬 데이터사이언스 핸드북 2장 - Numpy 소개데이터 분석/NumPy 2020. 5. 12. 11:43
3장과 함께 이번 장에서는 파이썬에서 인메모리 데이터를 효과적으로 적재하고 저장하고 가공하는 기법을 설명하겠다. 이 주제는 매우 광범위하다. 데이터세트는 광범위한 원천으로부터 문서나 이미지, 사운드 클립, 수치 측정값 등 거의 모든 것을 아우르는 매우 다양한 형식으로 들어올 수 있다. 이렇게 명백한 다양성에더 볼구하고 모든 데이터를 근본적으로 숫자 배열로 간주하는 것이 도움이 될 것이다. 숫자 배열을 효과적으로 저장하고 가공하는 것은 데이터 과학을 수행하는 절차에서 가장 근본적인 작업이다. 이제 파이썬이 이러한 숫자 배열을 다루기 위해 제공하는 전문 도구인 NumPy 패키지(2장)와 Pandas 패키지(3장) 을 살펴보겠다. NumPy 란? NumPy(보통 "넘파이"라고 발음한다)는 2005년에 Trav..
-
파이썬 데이터사이언스 핸드북 1장 - IPython 의 에러와 디버깅데이터 분석/NumPy 2020. 5. 5. 16:33
코드 개발과 데이터 분석은 항상 어느정도 시행착오가 필요하며, IPython 은 이 절차를 능률화하는 도구를 제공한다. 이번 포스트에서는 파이썬의 예외 보고를 제어하는 몇 가지 옵션을 간단히 다루고 코드의 에러를 디버깅하는 도구를 살펴본다. %xmode Plain, Context Verbose 인터프리터가 예외를 발견하면 에러 발생 원인에 대한 정보를 파이썬에서 접근할 수 있는 traceback 에서 확인할 수 있다. %xmode {Plain|Context|Verbose} %debug 역추적 내용을 확인하는 것으로 충분하지 않을 경우 디버깅 IPython 에서 디버깅에 가장 편리한 인터페이스 예외를 만난 뒤 이 명령어를 호출하면, 예외 발생 지점에 대화형 디버깅 프롬프트를 자동으로 연다. ipdb 프롬프..
-
[SQL] data.world tutorial SQL Pivot 문 예제 풀이데이터 분석/DB & SQL 2020. 5. 4. 00:41
PIVOT enables you to see rows as columns in a query result. 피벗테이블은 row 여러 개를 column 으로 옮겨서 요약 정리한다. PIVOT (집계값 FOR 대상컬럼 IN ("컬럼1", "컬럼2", ... "컬럼N")) https://docs.data.world/documentation/sql/concepts/advanced/PIVOT.html PIVOT Learn about PIVOT in this SQL tutorial. Visit for a full course on learning the basics of SQL. docs.data.world 엑셀에서 원하는 결과값을 값에 넣고, 요약기준을 row 와 column 에 추가하는 것과 같다. (이 때 c..