-
데이터 사이언스 분야에 일하고 싶은 이유 1 - 인생 타임라인하루 한줄 일기/IT 기획자의 잡생각 2020. 12. 17. 14:58
카일스쿨 유투브에서 카일의 타임라인에 맞추어서 어떻게 자신이 데이터 사이언스 분야에서 일을 하게 되었는지를 서술해주셨다. 그리고 이 동영상을 보는 많은 사람들에게 데이터 사이언스 취업 전에 고민하면 좋을 질문 5가지를 제공해주었다. 이 글에서는 인생 타임라인을 되돌아보고, 다음 글에서 질문 5가지에 자문자답해보려고한다. 나의 타임라인 2009' ~ 2012' 사회학과 미디어학, 수학을 좋아함, 통계는 한번 찔끔 시도해보고 버림. 나는 사회학 전공이다. 데이터를 기반으로 가설을 제시하고 검증하는 훈련을 했었다. 비록 문과였지만 수학을 좋아하고 꽤 잘했기 때문에 자연스럽게 통계학도 관심을 가졌다. 하지만 첫 통계학 입문 수업에서 처참한 성적을 맞았고, 그 이후로 통계학에는 얼씬도 하지 않았다. 사실 대학교 ..
-
Pandas 데이터 먼징 실습 2 - 날짜/시간 가공데이터 분석/Pandas 2020. 8. 27. 09:50
이 글은 p. 202 에 포함되어 있는 출생률 데이터 를 기준으로 작업한 것입니다. 포스트에서 사용되는 데이터는 주피터 노트북에서 아래 링크를 통해 다운받으실 수 있습니다. 이전 포스트 - Pandas 데이터 먼징 실습 1 [링크] 1. 데이터 요약 확인 2. 널값 NULL 처리 3. 이상치 Outlier 처리 4. 데이터타입 확인 및 변환 이번 포스트 목차 5. 날짜 형태 가공 6. 타임존 처리 5. 날짜 형태 가공 자주 추출하는 날짜형태를 미리 정리해놓는다. Pandas 는 날짜형태의 인덱스와 관련된 유용한 기능을 제공한다. 이전 포스트에서 1969 ~ 2008 년 기간동안의 일자별 출생률 데이터를 정리하였다. births 의 year, month, day 데이터는 날짜 데이터타입 파이썬 내장모듈 d..
-
Pandas 데이터 먼징 실습 1 - Null/Outlier 처리 및 데이터타입 변환데이터 분석/Pandas 2020. 8. 24. 11:44
이 글은 p. 202 에 포함되어 있는 출생률 데이터 를 기준으로 작업한 것입니다. 포스트에서 사용되는 데이터는 주피터 노트북에서 아래 링크를 통해 다운받으실 수 있습니다. !curl -0 https://raw.githubusercontent.com/jakevdp/data-CDCbirths/master/births.csv --output ./births.csv 사전에 필요한 프레임워크를 임포트합니다. 그리고 필요한 데이터를 가져와서 데이터프레임 객체로 할당합니다. import numpy as np import pandas as pd births = pd.read_csv('./births.csv') 이러면 실습 준비 완료! 지금부터 낯선 데이터에 대해서 데이터먼징하는 작업을 차근차근 살펴보겠습니다. :D ..
-
Pandas 병합과 조인 연산 (파이썬 데이터 사이언스 핸드북 예시)데이터 분석/Pandas 2020. 8. 20. 09:53
p.179 ~ 184 예제: 미국 주 데이터 이 글은 가지고 있는 데이터셋을 기준으로 유의미한 결과를 추출하기 위해서 어떤 과정을 거치는지를 정리하였습니다. 이 작업이 데이터를 다루는 좋은 습관을 형성하는 데 도움을 줄 것이라고 생각했습니다. Step 1. 목표 결과물 확인하기 목표 결과물: 2010년 인구 밀도 기준으로 미국 주와 지역 순위 계산 2010년 한정 인구밀도 (인구수 / 면적) 계산이 필요하다. state-population.csv 미국 주별 연도별 인구수 state-areas.csv 미국 주별 면적 state-abbreves.csv 미국 주와 주 약어코드 Step 2. 가지고 있는 데이터셋 확인하기 1. 데이터를 스캔하여 컬럼명을 확인한다. 3. 기대결과를 추출하기 위해 필요한 컬럼을 확..
-
Jupyter Notebook 에서 Pip 를 통해 패키지 설치하는 방법개발입문/개발환경 세팅 2020. 8. 19. 07:25
Pip, Conda 를 통해 Jupyter Notebook 에서 패키지 설치하는 법 import sys !{sys.executable} -m pip install numexpr # Install a conda package in the current Jupyter kernel import sys !conda install --yes --prefix {sys.prefix} numpy That bit of extra boiler-plate makes certain that you are running the pip version associated with the current Python kernel, so that the installed packages can be used in the current ..
-
cURL 입문, 공부자료 정리개발입문/개발환경 세팅 2020. 8. 16. 10:51
cURL: Client URL cURL (발음: seeURL) 은 가장 대표적인 용례: URL 에 있는 데이터 보는 것을 상징화시킨 이름이다. 인터넷으로 어플리케이션 레이어 프로토콜을 사용한 서버간에 데이터를 주고받는 기능에 특화되어 있다. I picked ‘cURL’ because the word contains URL and already then the tool worked primarily with URLs, and I thought that it was fun to partly make it a real English word “curl” but also that you could pronounce it “see URL” as the tool would display the contents of..
-
[번역글] 성장주 vs. 가치주하루 한줄 일기/투자 사생활 2020. 8. 15. 07:33
출처 https://www.buschinvestments.com/Growth-Stocks-vs--Value-Stocks.c1022.htm Growth Stocks vs. Value Stocks The labels “growth” and “value” reflect different approaches that can be used when making investment decisions. www.buschinvestments.com 본문 Investors are often confused about the differences between growth stocks and value stocks. The main way in which they differ is not in how they are bo..
-
Pandas 데이터 세트 결합하기: 병합과 조인데이터 분석/Pandas 2020. 8. 13. 07:16
Pandas 공식 User Guide 에서도 확인할 수 있다. - 선수지식: SQL JOIN Merge, join, concatenate and compare https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html Merge, join, concatenate and compare — pandas 1.1.0 documentation pandas has full-featured, high performance in-memory join operations idiomatically very similar to relational databases like SQL. These methods perform significantly better (..