-
Pandas 객체 소개 - DataFrame데이터 분석/Pandas 2020. 6. 7. 14:16
Series: 유연한 인덱스를 가지는 1차원 배열
DataFrame: 유연한 행 인덱스와 유연한 열 이름 (인덱스)을 가진 2차원 배열
Pandas DataFrame 객체
DataFrame 은 정렬된 Series 객체의 연속으로 볼 수 있다. 즉, 같은 인덱스를 공유하는 Series 객체의 조합이다.
- 행 인덱스: 도시이름 공유
- 열 인덱스: (도시 단위) 인구수, (도시 단위) 면적실제로 행과 열 모두 인덱스 객체이다.
DataFrame: 특수한 딕셔너리
이렇게 행이름을 기준으로 Series 를 반환한다.
DataFrame 객체 구성하기
단일 Series 객체에서 구성하기
DataFrame 은 Series 객체의 집합체로서 열 하나짜리 DataFrame 은 단일 Series 로부터 구성할 수 있다.
딕셔너리의 리스트에서 구성하기
여기서 a 와 b 는 컬럼이다. 행은 index 인수로 지정하거나 생략할 수 있다. 이렇게 리스트 컴프리헨션으로 데이터를 지정할 수 도 있다. 딕셔너리로 구성된 리스트는 컬럼으로 확장된다. 아래 예시에서 a, b 2 개의 키에 대해 값이 있으면, a, b 가 컬럼으로 확장된다.
데이터는 딕셔너리를 요소로 가지는 배열이다.
컬럼이 a, b, c 로 정해졌는데, 일부 데이터가 없다. 이처럼 딕셔너리의 일부 키가 누락되더라도 Pandas 는 누락된 자리를 NaN 으로 채운다.
Series 객체의 딕셔너리에 구성하기
인덱스가 미리 지정되어있는 Series 가 여러 개 전달될 경우에도, DataFrame 으로 구성될 수 있다.
2차원 NumPy 배열에서 구성하기
데이터의 2차원 배열이 주어지면 지정된 열과 인덱스 이름을 가진 DataFrame 을 생성할 수 있다.
즉, 데이터, column, index 를 각각 전달한다.
만약 column, index 인수가 생략되면 각각에 대해 정수 인덱스가 사용된다.
NumPy 의 구조화된 배열에서 구성하기
각 인덱스에 다차원으로 데이터를 붙일 때 사용자 정의 데이터 타입을 명시적으로 지정했다.
'데이터 분석 > Pandas' 카테고리의 다른 글
데이터 인덱싱과 선택 - DataFrame (0) 2020.06.15 데이터 인덱싱과 선택 - Series (0) 2020.06.13 Pandas 객체 소개 - Index (0) 2020.06.07 Pandas 객체 소개 - Series (0) 2020.06.07 Pandas 소개 - Pandas 를 왜 사용해야할까? (1) 2020.06.07