ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • Pandas 객체 소개 - Series
    데이터 분석/Pandas 2020. 6. 7. 13:36

    Pandas 튜토리얼 및 다큐멘테이션을 펴놓고 시작!

    http://pandas.pydata.org/

     

    pandas - Python Data Analysis Library

    pandas pandas is a fast, powerful, flexible and easy to use open source data analysis and manipulation tool, built on top of the Python programming language. Install pandas now!

    pandas.pydata.org

    Pandas 의 세 가지 기본 자료구조인 Series, DataFrame, Index 에 대해 알아보자.

     

     

     


    Pandas Series 객체

    Pandas Series 는 인덱싱된 데이터의 1차원 배열이다. 그것은 다음과 같이 리스트나 배열로부터 만들 수 있다.

    pd.Series

     

    Index and Values

    data.values 결과값은 NumPy 배열이다.

    data.index 결과값은 pandas.Index 타입의 배열로, 정수형 범위 숫자를 구현하는 불변의 인덱스 RangeIndex 객체이다.

     

    NumPy 의 배열처럼 파이썬 대괄호 표기법을 통해 연결된 인덱스로 접근할 수 있다. 슬라이싱 배열은 N 이상 M 미만이다. 1:3 일 경우 1 이상 3 미만 (3 미포함) 이다.

    Pandas value 접근

     

     

    Index: NumPy 1차원 배열과 Pandas Series 의 근본적인 차이점

    NumPy 배열에는 값에 접근하는데 사용되는 암묵적으로 정의된 정수형 인덱스가 있고,

    Pandas Series 에는 값이 연결된 명시적으로 정의된 인덱스가 있다. (정수형일 필요가 없고, 어떤 타입의 값으로도 구성할 수 있다. 예를 들어, 원한다면 인덱스로 문자열을 사용할 수 있다.

     

    아래와 같이 index 를 명시적으로 정의하고, 해당 인덱스로 값에 접근할 수 있다. 

     

     

    Series: 특수한 딕셔너리

    딕셔너리는 일련의 임의의 값에 임의의 키를 매핑하는 구조고,  Series 는 타입이 지정된 키를 일련의 타입이 지정된 값에 매핑하는 구조이다.  그래서 파이썬 리스트나 딕셔너리보다 Pandas Series 가 더 효율적이다. 

    dictionary 을 통해 Pandas Series 객체 생성 

     

    기본적으로 Series 는 인덱스가 정렬된 키에서 추출되는 경우에 생성된다. 전형적인 딕셔너리 스타일로 값에 접근할 수 있다. 슬라이싱과 같이 배열 스타일의 연산도 지원한다. (문자형은 C:F 일 경우 F 포함이다!)

    Pandas Series - 딕셔너리 스타일 접근

     

    Series 객체 구성하기

     

    pd.Series(data, index=index)

    data 는 리스트나 NumPy 배열, 또는 스칼라 값이거나 딕셔너리일 수 있다.

    index 는 선택 인수이고, 정수형이 기본이다.

     

    List로 Series 생성 

     

    Scalar 값으로 Series 생성

     

     

    data 는 딕셔너리일 수도 있는데, 그 경우 index 는 기본적으로 딕셔너리 키를 정렬해서 취한다.

    Dictionary 로 Series 생성

     

    만약 data 중 일부 인덱스만 명시적으로 설정하고 싶다면, 요렇게 생성할 수도 있다. 

     

    댓글

Designed by Tistory.