-
파이썬 데이터 사이언스 핸드북개발입문/IT 서적 리뷰 2020. 5. 5. 11:55
IPython, Jupyter, NumPy, Pandas, Matplotlib, Scikit-Learn 라이브러리를 활용한 데이터 과학과 머신러닝
2020-05, 2020-06 두 달에 걸쳐 이 책을 완독하고, 실습하려고 한다.
파이썬 실행 환경을 구축한다. p.1 ~ 39
데이터 사이언스 3rd 파티 프레임워크를 익힌다. p. 40~ 382
기계학습의 원리를 이해하고, 여러 통계학 개념을 도입한 심화학습을 한다. p. 383 ~ 575써드파티 프레임워크까지는 1달만에 할 수 있을 것으로 추정되는데, 기계학습은 조금 무섭긴 하다. 통계학은 유일하게 내가 대학 때 B 를 맞은 과목이라 그런지 공포심마저 든다. 그래도 별 수 있나. 전문가처럼은 아니어도 이해할 수 있는 수준은 되어야하는 걸. 이 책을 믿고 기계학습에 1달을 투자해보자.
그리고 Python 카테고리에 필기노트를 작성할 예정이다. 블로깅은 시간은 좀 더 들지만 학습의 측면에서 도움이 된다. 그리고 예기치 못한 트러블슈팅이나 추가적으로 궁금한 사항에 대한 곁가지도 같이 정리해보려고 한다. 만약 누군가가 같은 어려움을 겪고 있다가 이 과정을 함께 해준다면 좋을 듯 하다.
다음 내용은 이 책의 서문이다.
데이터 과학 벤다이어그램
데이터세트를 모델링하고 요약하는 사람: 통계 전문가 staticians
데이터를 효과적으로 저장하고 처리하고 시각화하는 알고리즘을 설계하고 사용할 수 있는 사람: 컴퓨터 과학자 computer scientist
한 주제에 대해 적절한 질문을 공식화하고 그 대답을 맥락에 맞게 이해하는 데 필요한 도메인 전문가 domain specialist
어느 분이 드류 콘웨이의 데이터 과학 벤다이어그램과 함께 게시된 포스트를 번역해주셨다. :D
https://www.lucypark.kr/blog/2015/06/21/the-data-science-venn-diagram/
대상 독자
데이터 집약적인 컴퓨터 과학을 위한 도구로 사용하려고 파이썬을 배우는 사람 & 컴퓨터 언어나 파이썬에 익숙한 사람
왜 파이썬?
파이썬은 지난 수십 년에 걸쳐 대용량 데이터세트의 분석과 시각화를 비롯한 과학 계산 작업을 위한 최고의 도구로 떠올랐다. 이는 주로 방대하고 활발한 서드파티 패키지의 생태계 덕분이다. Numpy, Pandas, SciPy, MatPlotlib, IPython, Scikit-Learn, 그 밖에도 많은 도구들이 있다.
설치 고려 사항
아나콘다에 포함된 패키지들은 미니콘다 위에 수동으로 설치할 수도 있다. 그래서 개인적으로는 미니콘다로 시작할 것을 권장한다.
미니콘다 Miniconda
파이썬 인터프리터 자체와 함께 파이썬 패키지를 위한 교차 플랫폼 패키지 관리자로 동작하는 콘다 Conda 라는 명령줄 도구를 제공한다.
아나콘다 Anaconda
파이썬과 콘다를 포함하고 아울러 과학 계산에 필요한 패키지들이 번들로 미리 설치되어 있다. 따라서 수 GB의 디스크 공간이 필요하다.
이 서문에 따르면 나는 위험분자이다.
나는 도메인 전문가 PM 에서 시작해서, 해킹 기술을 익혀왔고, 통계는 아직 잘 모르기 때문이다.
이번 책에서 해킹 기술을 익힌 다음에 이후에 꼭 통계에 대한 이해도를 높이도록 해야겠다. 위험분자라니! 흠!
'개발입문 > IT 서적 리뷰' 카테고리의 다른 글
[리뷰] 리눅스의 신: 입문자를 위한 자가서버 운영 가이드 (0) 2016.12.03