-
Pandas 소개 - Pandas 를 왜 사용해야할까?데이터 분석/Pandas 2020. 6. 7. 10:50
NumPy 의 ndarray 데이터 구조는 산술 연산 작업에서 전형적으로 볼 수 있는 깨끗하고 잘 정리된 데이터 타입을 위한 핵심적인 기능을 제공한다. 문제는 현실은 안깨끗하다는 점이다....ㅎㅎ
- 유연성이 더 필요하고 (데이터에 레이블을 붙이거나 누락된 데이터로 작업하는 등)
- 요소 단위의 브로드캐스팅에 잘 매핑되지 않는 연산 (그룹화, 피벗 등) 을 하고자 하는 경우에 한계가 있는 것은 분명하다.
각 경우는 주변 세계에서 다양한 형태로 존재하는 덜 구조화된 데이터를 분석하는 데 중요한 부분이다.
그래서 Pandas Library 가 등장했다.
Pandas 는 NuMpy 를 기반으로 만들어진 새로운 패키지로서 DataFrame 이라는 효율적인 자료구조를 제공한다.
Pandas 에서도 특히 Series 와 DataFrame 객체는 NumPy 배열 구조를 기반으로 하며 데이터 과학자의 시간을 대부분 잡아먹는 '데이터 먼징 (data munging, data wrangling)' 작업을 효율적으로 수행할 수 있게 해준다.
또한 Pandas 는 레이블이 붙은 데이터를 위한 편리한 스토리지 인터페이스를 제공할 뿐만 아니라 데이터베이스 프레임워크와 스프레드시트 프로그램 사용자에게 익숙한 강력한 데이터 연산을 구현한다.
Pandas 의 장단점
Pandas 의 장점은...
Data Representation 데이터 가독성을 높이고
Less sriting and more work done 작업하는 데에 효율적이고
An extensive set of features 데이터 분석에 수많은 필요한 명령과 기능을 제공하며
Efficiently handles large data 대용량 데이터를 효율적으로 처리하고
Makes data flexible and customizable 데이터를 관리하고 피보팅하기 편리하며
Made fore Python 파이썬으로 작성되었다는 점이다!!!
Pandas 의 단점은...
Stepp learning curve, Difficult Syntax 어렵고, 배울게방대하며
Bad documentation 심지어 다큐멘테이션도 미비하고
Poor Compatibility for 3D matrices 2 차원 데이터까지는 좋은데 3 차원 데이터는 안된다. (다차원은 NumPy 를 사용하기를-)
즉, 잘 배우면 2차원 데이터에서는 장점이 엄청난 라이브러리이다. (기대기대)
출처. https://data-flair.training/blogs/advantages-of-python-pandas/
데이터과학 Key Concept 정리
DMP Data Management Platform
데이터를 수집하고 관리하는 소프트웨어 플랫폼이다. 여러 소스를 통해 얻어온 데이터를 빅데이터와 AI 알고리즘을 활용하여 대용량 데이터를 처리하고 분석하는데 사용한다. 주로 ad-tech 분야에서 first-, second-, third party 에게 얻어온 데이터소스를 통해서 마케팅에 활용하는 맥락에서 사용된다.(DSP, DMP, SSP ad-network 개념으로 활용된다.)
https://www.lotame.com/what-is-a-data-management-platform/
Data PreProcessing vs. Data Wrangling
- Data PreProesing 은 데이터를 분석하기 좋게 깔끔하게 만드는 작업
- Data Wrangling 은 비즈니스 분석가들이 분석 또는 비쥬얼라이제이션을 위해 추가적으로 진행하는 작업
Data Pipeline vs. ETL
Pipeline 는 데이터 프로세싱 단계로, source, processing steps, destination (sink) 으로 실시간으로 이루어진다. 규모가 큰 데이터를 실시간으로 동시에 처리할 수 있어야 하므로 기술적으로 요구수준이 높다.
ETL 은 Extract, Transfrom, Load 의 약자로, 데이터를 source 에서 destination 으로 옮기는 프로세스를 의미한다. 일반적으로 배치잡으로 이루어진다.
https://hazelcast.com/glossary/data-pipeline/
'데이터 분석 > Pandas' 카테고리의 다른 글
데이터 인덱싱과 선택 - DataFrame (0) 2020.06.15 데이터 인덱싱과 선택 - Series (0) 2020.06.13 Pandas 객체 소개 - Index (0) 2020.06.07 Pandas 객체 소개 - DataFrame (0) 2020.06.07 Pandas 객체 소개 - Series (0) 2020.06.07