-
[SQL] 조건문 Where cluase 비교연산 사용법데이터 분석/DB & SQL 2020. 4. 25. 14:09
조건문 Where cluase 은 쿼리 질의결과에서 일부 결과만 필터링할 때 활용한다. 이번 글을 정리하면서 Case Sensitive / Insensitive 에 대해서 명확하게 이해하게 되었다. Mac > Numbers > Column 클릭 > 우측 Filter 탭 기능을 자세히 보게 되었다. =/!= 검색과 LIKE 검색으로 보인다면 성공! = 동치연산자, 그 외 비교연산자 조건문의 기본은 = 동치를 포함한 비교연산자이다. An introduction to the WHERE clause and comparison operators. One way to restrict the data presented from a query is to use a WHERE clause. WHERE is used to..
-
[SQL] SQL 의 modifier: Keyword데이터 분석/DB & SQL 2020. 4. 25. 11:17
ORDER BY clause 의 모든 것. ORDER BY year ASC NULLS FIRST, count DESC NULLS FRIST ORDER BY 와 함께 사용되는 Modifier 는 다음과 같다: ASC (default), DESC, NULLS FIST, NULLS LAST (default) 보라색 단어가 바로 Modifier, 정식 명칭으로는 SQL 이 지정한 Keyword 이다. We can also flip the order of the values returned by ORDER BY by using the modifier DESC There is also a modifier ASC for ordering data. ASC is used in ORDER BY clauses to indi..
-
[data.world] query template 과 형변환 처리데이터 분석/DB & SQL 2020. 4. 20. 00:11
SQL tutorial excersize data Data was genererated using Synthea, a synthetic patient generator that models the medical history of synthetic patients. (...)De-identified real data still presents a challenge in the medical field because there are peopel who excel at re-identification of these data. 예시로 사용할 dataset 은 data.world 의 사용법을 익히라고 제공된 연습 데이터입니다. 하지만 완전 더미 데이터가 아니고 실제 미국의 합병증 환자에 대한 의료기록입니다...
-
[data.world] 여러 데이터소스에서 데이터 가져오기데이터 분석/DB & SQL 2020. 4. 19. 20:28
여러 데이터소스에 걸쳐서 데이터를 분석해야할 때가 있다. 어드민에서 다운로드 받거나, 외부 제휴사에서 메일로 전달해준 파일 등등. 출처가 다양한 데이터 들을 스프레드시트의 각 시트에 넣는다. 가끔 파일 한 개에 10만 row 만 들어가서 48만 row 의 파일이 5개의 파일로 쪼개져서 오면, 내 스프레드시트에는 다시 1개의 시트에 채워넣는 작업을 하게된다. 나의 엑셀 파일도 사실 100만 row 가 최대이다. 데이터소스가 많고, 데이터 규모가 커지면 엑셀의 신도 엑셀로 데이터 작업을 수행하기 힘들어진다. 특히 맥 환경에서 MS 엑셀은 심각하다. 맥에서 엑셀을 쓰면 몇 만 row 되지도 않는데도 하단에 로딩중 프로그레스 바를 볼 수 있다. 더 심해지면 프로그레스 바가 멈추고 한참 후에 엑셀에게 시킨 작업이..
-
[data.world] 쿼리실행창 해부 - 쿼리를 잘하기 위한 지원도구들데이터 분석/DB & SQL 2020. 4. 19. 09:44
생각해보았다. 비개발직군에게 hue 와 같이 쿼리할 수 있는 환경을 제공했을 때, 가장 힘들어하는 부분이 무엇일지. 나한테 많은 사람들이 계속해서 물어볼 질문은 무엇인지? PM 은 이런 지속된 문제를 해결함으로써 업무 효율성을 증대시킬 수 있다. 사실 이건 너무 깔끔한 표현이고, 비슷한 질문을 수없이 많은 사람들한테 받으면 조금 지친다. 그래서 이 고민에 대해 좀 더 공을 들여 문서화해보자고 결심했다. 다시 원래의 질문으로 돌아오자. 그리고 내 대답은 이렇다. Q. 비개발직군에게 hue 와 같이 쿼리할 수 있는 환경을 제공했을 때, 가장 힘들어하는 부분이 무엇일까? A. 바로 쿼리실행 환경 그 자체! 특히 데이터에 관심이 많은 비개발직군은 일반적으로 쿼리 자체는 여러 루트를 통해서 공부했다. 하지만 충분..
-
[data.world] 비개발 직군을 위한 데이터 솔루션데이터 분석/DB & SQL 2020. 4. 18. 11:07
는 dataset 을 웹에 올려서 쿼리할 수 있고, 쿼리 및 쿼리결과를 손쉽게 공유할 수 있는 툴이다. 비즈니스의 모든 직군이 데이터를 활용할 수 있도록 지원한다. 특장점은 아래 3개이다. 장점 1. 접근성 가 제공하는 기능은 Zeppelin 또는 Jupyter 와 유사하나, 웹 기반이어서 접근성이 뛰어나다. 특히 비개발 직군 유저들이 VDI 접속 없이 데이터를 만져보도록 환경을 구성할 수 있다. 쿼리결과 파일 다운로드는 물론이고, 다양한 데이터 관련 솔루션로 데이터를 연동시킬 수 있다. - 마케터: Google Data Studio, Excel - 기획자(Product Manager): Jupyter, Tableau - 데이터 분석가: SPSS, R, Algorithmia 장점 2. 리스크 감소 DB ..
-
Python 웹 크롤링을 위한 준비 - 웹 드라이버 지정데이터 분석/NumPy 2020. 2. 23. 16:30
OS: Mac Python Version: 3.8 IDE: PyCharm external library: selenium selenium 하위 webdriver.Chrome 에서 크롬 드라이버에 대해 제어하도록 준비한다. 크롬 드라이버를 별도로 설치한 후, selenium.webdriver 로 웹드라이버를 구동하면 된다. ※ 크롬 드라이벌 설치 경로 [클릭] from selenium import webdriver driver = webdriver.Chrome(executable_path= r'/Users/youkyunghwang/PycharmProjects/202002/chromedriver') --- console log selenium.common.exceptions.WebDriverException..
-
Pycharm 외부 라이브러리 설치데이터 분석/NumPy 2020. 2. 23. 15:32
OS: Mac Python Version: 3.8 IDE: PyCharm 정식개발자가 아닌 나는 시스템 환경변수 설정, 디렉토리 등이 소스코드 자체보다 더 어려운데, Pycharm 은 많은 부분을 해결해준다. 최고!!! Pycharm 에서 import 를 할 때, 미설치된 라이브러리라면 오류 버튼이 뜨고 install 가이드를 따르면, 프로젝트 하위 venv > lib > site-packages 에 설치해준다. (venv 는 virtualenv 가상환경의 약자) venv를 쓰면 프로젝트 하위 venv > lib > site-packages 에 설치된 라이브러리만 읽을 수 있고, virtualenv 는 서로 다른 프로젝트에서 파이썬 패키지 (+버전) 을 관리하기 위해 사용된다. 파이썬 패키지를 전역에 설..