ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • Pandas 객체 소개 - DataFrame
    데이터 분석/Pandas 2020. 6. 7. 14:16

    Series: 유연한 인덱스를 가지는 1차원 배열

    DataFrame: 유연한 행 인덱스와 유연한 열 이름 (인덱스)을 가진 2차원 배열

     

     


    Pandas DataFrame 객체

    DataFrame 은 정렬된 Series 객체의 연속으로 볼 수 있다. 즉, 같은 인덱스를 공유하는 Series 객체의 조합이다. 

    - 행 인덱스: 도시이름 공유
    - 열 인덱스: (도시 단위) 인구수, (도시 단위) 면적 

    Dataframe 생성
    DataFrame 예시

     

    실제로 행과 열 모두 인덱스 객체이다.

    index, column 행열 모두 인덱스 객체이다!

     

     

    DataFrame: 특수한 딕셔너리 

    이렇게 행이름을 기준으로 Series 를 반환한다. 

     

     

    DataFrame 객체 구성하기

    단일 Series 객체에서 구성하기 

    DataFrame 은 Series 객체의 집합체로서 열 하나짜리 DataFrame 은 단일 Series 로부터 구성할 수 있다. 

     

    딕셔너리의 리스트에서 구성하기

    여기서 a 와 b 는 컬럼이다. 행은 index 인수로 지정하거나 생략할 수 있다.  이렇게 리스트 컴프리헨션으로 데이터를 지정할 수 도 있다. 딕셔너리로 구성된 리스트는 컬럼으로 확장된다. 아래 예시에서 a, b 2 개의 키에 대해 값이 있으면, a, b 가 컬럼으로 확장된다. 

     

    데이터는 딕셔너리를 요소로 가지는 배열이다. 

     

    컬럼이 a, b, c 로 정해졌는데, 일부 데이터가 없다. 이처럼 딕셔너리의 일부 키가 누락되더라도 Pandas 는 누락된 자리를 NaN 으로 채운다. 

     

    Series 객체의 딕셔너리에 구성하기

    인덱스가 미리 지정되어있는 Series 가 여러 개 전달될 경우에도, DataFrame 으로 구성될 수 있다.

     

    2차원 NumPy 배열에서 구성하기

    데이터의 2차원 배열이 주어지면 지정된 열과 인덱스 이름을 가진 DataFrame 을 생성할 수 있다.

    즉, 데이터, column, index 를 각각 전달한다. 

    만약 column, index 인수가 생략되면 각각에 대해 정수 인덱스가 사용된다.

     

    NumPy 의 구조화된 배열에서 구성하기

    각 인덱스에 다차원으로 데이터를 붙일 때 사용자 정의 데이터 타입을 명시적으로 지정했다.  

    댓글

Designed by Tistory.