-
Pandas 객체 소개 - Series데이터 분석/Pandas 2020. 6. 7. 13:36
Pandas 튜토리얼 및 다큐멘테이션을 펴놓고 시작!
Pandas 의 세 가지 기본 자료구조인 Series, DataFrame, Index 에 대해 알아보자.
Pandas Series 객체
Pandas Series 는 인덱싱된 데이터의 1차원 배열이다. 그것은 다음과 같이 리스트나 배열로부터 만들 수 있다.
data.values 결과값은 NumPy 배열이다.
data.index 결과값은 pandas.Index 타입의 배열로, 정수형 범위 숫자를 구현하는 불변의 인덱스 RangeIndex 객체이다.
NumPy 의 배열처럼 파이썬 대괄호 표기법을 통해 연결된 인덱스로 접근할 수 있다. 슬라이싱 배열은 N 이상 M 미만이다. 1:3 일 경우 1 이상 3 미만 (3 미포함) 이다.
Index: NumPy 1차원 배열과 Pandas Series 의 근본적인 차이점
NumPy 배열에는 값에 접근하는데 사용되는 암묵적으로 정의된 정수형 인덱스가 있고,
Pandas Series 에는 값이 연결된 명시적으로 정의된 인덱스가 있다. (정수형일 필요가 없고, 어떤 타입의 값으로도 구성할 수 있다. 예를 들어, 원한다면 인덱스로 문자열을 사용할 수 있다.아래와 같이 index 를 명시적으로 정의하고, 해당 인덱스로 값에 접근할 수 있다.
Series: 특수한 딕셔너리
딕셔너리는 일련의 임의의 값에 임의의 키를 매핑하는 구조고, Series 는 타입이 지정된 키를 일련의 타입이 지정된 값에 매핑하는 구조이다. 그래서 파이썬 리스트나 딕셔너리보다 Pandas Series 가 더 효율적이다.
기본적으로 Series 는 인덱스가 정렬된 키에서 추출되는 경우에 생성된다. 전형적인 딕셔너리 스타일로 값에 접근할 수 있다. 슬라이싱과 같이 배열 스타일의 연산도 지원한다. (문자형은 C:F 일 경우 F 포함이다!)
Series 객체 구성하기
pd.Series(data, index=index)
data 는 리스트나 NumPy 배열, 또는 스칼라 값이거나 딕셔너리일 수 있다.
index 는 선택 인수이고, 정수형이 기본이다.
data 는 딕셔너리일 수도 있는데, 그 경우 index 는 기본적으로 딕셔너리 키를 정렬해서 취한다.
만약 data 중 일부 인덱스만 명시적으로 설정하고 싶다면, 요렇게 생성할 수도 있다.
'데이터 분석 > Pandas' 카테고리의 다른 글
데이터 인덱싱과 선택 - DataFrame (0) 2020.06.15 데이터 인덱싱과 선택 - Series (0) 2020.06.13 Pandas 객체 소개 - Index (0) 2020.06.07 Pandas 객체 소개 - DataFrame (0) 2020.06.07 Pandas 소개 - Pandas 를 왜 사용해야할까? (1) 2020.06.07