-
파이썬 데이터사이언스 핸드북 2장 - Numpy 소개데이터 분석/NumPy 2020. 5. 12. 11:43
3장과 함께 이번 장에서는 파이썬에서 인메모리 데이터를 효과적으로 적재하고 저장하고 가공하는 기법을 설명하겠다. 이 주제는 매우 광범위하다. 데이터세트는 광범위한 원천으로부터 문서나 이미지, 사운드 클립, 수치 측정값 등 거의 모든 것을 아우르는 매우 다양한 형식으로 들어올 수 있다. 이렇게 명백한 다양성에더 볼구하고 모든 데이터를 근본적으로 숫자 배열로 간주하는 것이 도움이 될 것이다. 숫자 배열을 효과적으로 저장하고 가공하는 것은 데이터 과학을 수행하는 절차에서 가장 근본적인 작업이다. 이제 파이썬이 이러한 숫자 배열을 다루기 위해 제공하는 전문 도구인 NumPy 패키지(2장)와 Pandas 패키지(3장) 을 살펴보겠다. NumPy 란? NumPy(보통 "넘파이"라고 발음한다)는 2005년에 Trav..
-
파이썬 데이터사이언스 핸드북 1장 - 코드 프로파일링 및 시간 측정데이터 분석/NumPy 2020. 5. 9. 13:33
특정 명령어나 일련의 명령어의 실행 시간을 확인하는 것이 유용하고, 때로는 멀티라인 프로세스를 면밀하게 분석하고 복잡한 일련의 작업에서 병목이 되는 지점을 찾는 것이 유용하다. IPython 은 이런 방식으로 코드의 실행 시간을 측정하고 프로파일링하는 다양한 기능을 제공한다. - %time : 단일 문장의 실행 시간 - %timeit : 단일 문장을 반복 실행해 더 정확하게 실행 시간을 측정 일반적으로 %time 으로 측정한 시간이 %timeit 으로 측정한 시간보다 길다. %timeit 이 물밑에서 시스템 호출이 시간 측정을 방해하지 못하도록 몇몇 영리한 작업을 수행하기 때문이다. 예를 들면, 이 명령어는 시간 측정에 영향을 줄 수도 있는 미사용 파이썬 객체를 정리하는 가비지 컬렉션 작업을 못 하게 막..
-
파이썬 데이터 사이언스 핸드북개발입문/IT 서적 리뷰 2020. 5. 5. 11:55
IPython, Jupyter, NumPy, Pandas, Matplotlib, Scikit-Learn 라이브러리를 활용한 데이터 과학과 머신러닝 파이썬 데이터 사이언스 핸드북 위키북스 데이터 사이언스 시리즈. 초보자부터 전문가까지 아우르는 넓은 사용자층을 가진 매력적인 언어인 파이썬 언어가 제공하는 과학 스택을 이용해 실제 데이터 과학 분야에서 자주 만나는 상황을 해결해 나감... www.aladin.co.kr 2020-05, 2020-06 두 달에 걸쳐 이 책을 완독하고, 실습하려고 한다. 파이썬 실행 환경을 구축한다. p.1 ~ 39 데이터 사이언스 3rd 파티 프레임워크를 익힌다. p. 40~ 382 기계학습의 원리를 이해하고, 여러 통계학 개념을 도입한 심화학습을 한다. p. 383 ~ 575 ..
-
Python 웹 크롤링을 위한 준비 - 웹 드라이버 지정데이터 분석/NumPy 2020. 2. 23. 16:30
OS: Mac Python Version: 3.8 IDE: PyCharm external library: selenium selenium 하위 webdriver.Chrome 에서 크롬 드라이버에 대해 제어하도록 준비한다. 크롬 드라이버를 별도로 설치한 후, selenium.webdriver 로 웹드라이버를 구동하면 된다. ※ 크롬 드라이벌 설치 경로 [클릭] from selenium import webdriver driver = webdriver.Chrome(executable_path= r'/Users/youkyunghwang/PycharmProjects/202002/chromedriver') --- console log selenium.common.exceptions.WebDriverException..