-
파이썬 데이터사이언스 핸드북 2 장 - 비교, 마스크, 부울 로직데이터 분석/NumPy 2020. 5. 31. 09:39
NumPy 배열 내의 값을 검사하고 조작하는 부울 마스크를 사용하는 법을 다룬다.
마스킹은 특정 기준에 따라 배열의 값을 추출하거나 수정, 계산, 조작할 때 사용한다. 특정 값을 모두 세거나 특정 임게치를 넘어서는 이상치를 모두 제거하려는 경우가 이에 해당한다. NumPy 에서 부울 마스킹은 종종 이러한 유형의 작업을 수행하기에 가장 효율적인 방법이다.
비교, 마스크, 부울로직
궁금한 정보를 조금씩 좁혀나가서 유의미한 데이터분석을 할 수 있다.
예제: 비온 날 세기
plt.hist(inches, 40) --- inches 배열에 대해서 40개로 범주화하여 히스토그램을 그린다.
40개 범주화했을 때 365일 중 245일이 0~ 0.04596457 첫번째 범주에 속하는 것을 알 수 있다. (비가 안온듯!)
자료가 영 집중하기 힘든 것이.... 조치가 필요하다!!!
우리가 알고자 하는 정보를 좁혀본다. 이 때 사용하는 것이 부울 마스크 이다.
대상배열 [T/F 부울 조건]
비가 오지 않은 많은 날들을 제외하고, 비가 온 날을 기준으로 데이터와 히스토그램을 다시 그려본다.
Q. 그해 비가 온 날은 며칠일까? 150일
Q. 비 오는 날의 평균 강수량은 얼마인가? 약 0.323569 인치
보통 비가 추적추적 조금만 오는 것으로 보인다. 특정수치 이상 비가 온 날이 궁금하면 부울 마스크 기준을 수정한다.
Q. 0.5인치 이상 비가 온 날은 며칠이나 될까? 37일
0.5 이하는 비가 추적추적와서 우산이 필요없고, 1.0 초과는 비가 너무 많이 와서 우산이 필요없다면? (;;)
Q. 비가 적당히 온 날 ( 0.5 인치 초과, 1.0 이하) 은 며칠이나 될까?
비교연산 2개를 조합하여서 대상을 좁힐 수 있다.
'데이터 분석 > NumPy' 카테고리의 다른 글
파이썬 데이터사이언스 핸드북 2 장 - 팬시 인덱싱 (0) 2020.05.31 파이썬 데이터사이언스 핸드북 2 장 - 비교연산, 논리연산으로 부울배열을 만들고 마스킹 연산하자. (0) 2020.05.31 파이썬 데이터사이언스 핸드북 2 장 - 배열 연산: 브로드캐스팅 (0) 2020.05.31 파이썬 데이터사이언스 핸드북 2장 - Numpy 집계 (0) 2020.05.24 파이썬 데이터사이언스 핸드북 2 장 - NumPy 지수와 로그 함수 (0) 2020.05.23