-
[data.world] query template 과 형변환 처리데이터 분석/DB & SQL 2020. 4. 20. 00:11
SQL tutorial excersize data Data was genererated using Synthea, a synthetic patient generator that models the medical history of synthetic patients. (...)De-identified real data still presents a challenge in the medical field because there are peopel who excel at re-identification of these data. 예시로 사용할 dataset 은 data.world 의 사용법을 익히라고 제공된 연습 데이터입니다. 하지만 완전 더미 데이터가 아니고 실제 미국의 합병증 환자에 대한 의료기록입니다...
-
[data.world] 여러 데이터소스에서 데이터 가져오기데이터 분석/DB & SQL 2020. 4. 19. 20:28
여러 데이터소스에 걸쳐서 데이터를 분석해야할 때가 있다. 어드민에서 다운로드 받거나, 외부 제휴사에서 메일로 전달해준 파일 등등. 출처가 다양한 데이터 들을 스프레드시트의 각 시트에 넣는다. 가끔 파일 한 개에 10만 row 만 들어가서 48만 row 의 파일이 5개의 파일로 쪼개져서 오면, 내 스프레드시트에는 다시 1개의 시트에 채워넣는 작업을 하게된다. 나의 엑셀 파일도 사실 100만 row 가 최대이다. 데이터소스가 많고, 데이터 규모가 커지면 엑셀의 신도 엑셀로 데이터 작업을 수행하기 힘들어진다. 특히 맥 환경에서 MS 엑셀은 심각하다. 맥에서 엑셀을 쓰면 몇 만 row 되지도 않는데도 하단에 로딩중 프로그레스 바를 볼 수 있다. 더 심해지면 프로그레스 바가 멈추고 한참 후에 엑셀에게 시킨 작업이..
-
[data.world] 쿼리실행창 해부 - 쿼리를 잘하기 위한 지원도구들데이터 분석/DB & SQL 2020. 4. 19. 09:44
생각해보았다. 비개발직군에게 hue 와 같이 쿼리할 수 있는 환경을 제공했을 때, 가장 힘들어하는 부분이 무엇일지. 나한테 많은 사람들이 계속해서 물어볼 질문은 무엇인지? PM 은 이런 지속된 문제를 해결함으로써 업무 효율성을 증대시킬 수 있다. 사실 이건 너무 깔끔한 표현이고, 비슷한 질문을 수없이 많은 사람들한테 받으면 조금 지친다. 그래서 이 고민에 대해 좀 더 공을 들여 문서화해보자고 결심했다. 다시 원래의 질문으로 돌아오자. 그리고 내 대답은 이렇다. Q. 비개발직군에게 hue 와 같이 쿼리할 수 있는 환경을 제공했을 때, 가장 힘들어하는 부분이 무엇일까? A. 바로 쿼리실행 환경 그 자체! 특히 데이터에 관심이 많은 비개발직군은 일반적으로 쿼리 자체는 여러 루트를 통해서 공부했다. 하지만 충분..
-
[data.world] 비개발 직군을 위한 데이터 솔루션데이터 분석/DB & SQL 2020. 4. 18. 11:07
는 dataset 을 웹에 올려서 쿼리할 수 있고, 쿼리 및 쿼리결과를 손쉽게 공유할 수 있는 툴이다. 비즈니스의 모든 직군이 데이터를 활용할 수 있도록 지원한다. 특장점은 아래 3개이다. 장점 1. 접근성 가 제공하는 기능은 Zeppelin 또는 Jupyter 와 유사하나, 웹 기반이어서 접근성이 뛰어나다. 특히 비개발 직군 유저들이 VDI 접속 없이 데이터를 만져보도록 환경을 구성할 수 있다. 쿼리결과 파일 다운로드는 물론이고, 다양한 데이터 관련 솔루션로 데이터를 연동시킬 수 있다. - 마케터: Google Data Studio, Excel - 기획자(Product Manager): Jupyter, Tableau - 데이터 분석가: SPSS, R, Algorithmia 장점 2. 리스크 감소 DB ..
-
HackerRank Mysql 문제풀이 - Binary Tree Nodes데이터 분석/DB & SQL 2019. 12. 15. 17:47
HackerRank Mysql - Binary Tree Nodes 사전지식. - Sub Query 서브 쿼리 - Control Flow Function 제어문 - NULL 체크 1. 문제 해석 You are given a table, BST, containing two columns: N and P, where N represents the value of a node in Binary Tree, and P is the parent of N. Write a query to find the node type of Binary Tree ordered by the value of the node. Output one of the following for each node: Root: If node is roo..
-
hackerrank mysql Occupations 문제풀이데이터 분석/DB & SQL 2019. 12. 15. 16:11
HackerRank Mysql : Occupations MySQL :: MySQL 8.0 Reference Manual :: 12.4 Control Flow Functions MySQL 8.0 Reference Manual / Functions and Operators / Control Flow Functions 12.4 Control Flow Functions Table 12.6 Flow Control Operators Name Description CASE Case operator IF() If/else construct IFNULL() Null if/else construct NULLIF() Return NULL dev.mysql.com 위 문제는 아래 3 가지를 숙지해야 풀 수 있는 문제이다. 아..
-
서브쿼리 Sub Query - 상관쿼리와 비상관쿼리데이터 분석/DB & SQL 2019. 5. 12. 22:12
서브쿼리에서 어려운 점은 구조가 아니고, 쿼리의 어느 부분이 서브 쿼리인지 또는 서브 쿼리를 사용할 필요가 있는지를 알아내는 것입니다. Q. 내 리스트에 있는 사람들 중에 누가 연봉이 가장 많을까? - 내 리스트의 누가? SELECT first_name, last_name FROM my_contact_list - 내 리스트의 연봉? SELECT salery FROM job_current; - 가장 많은 연봉: SELECT MAX(salary) FROM job_current; my_contact_list mc 와 job_current jc 에서 mc.first_name, mc.last_name, jc.salery 를 가져옵니다. 그런데 조건! jc.salery 가 가장 높은 연봉인 사람만! 가장 높은 연봉..
-
SELECT 쿼리의 좋은 습관데이터 분석/DB & SQL 2019. 5. 5. 12:54
쿼리의 대부분은 SELECT 조회 쿼리이다. 요새는 기획자들도 Hue 를 통해 DB 에 접근하고 SELECT 쿼리를 실행하기도 한다. 나 같은 초심자를 위해 SELECT 쿼리를 작성할 때의 좋은 습관과 주의사항을 정리해보았다. SELECT 문을 위한 좋은 습관 - 쿼리문에 따라 성능이 좌지우지 된다. 쿼리문에 따라 성능이 좌지우지 된다. 심지어 아주 가끔은 잘못 쓰면 DB가 사망하는 경우가 가끔 있다. --- 위보다는 아래처럼 SELECT * FROM easy_drinks; SELECT drink_name, main, second FROM easy_drinks; --- 전체 필드를 보고 싶다면, 행을 줄여서 SELECT * FROM easy_drinks limit 10; --- WHERE 조건은 다음 라..