본문 바로가기

데이터분석

(18)
ADP 28회 합격 ADP를 준비한지 1년만에 턱걸이로 겨우 합격했습니다. 큰 숙제를 해결한듯 속이 시원합니다.
분류 (의사결정나무) 본문의 내용은 파이썬 머신러닝 완벽가이드 (권철민, 위키북스) 참고하여 작성하였습니다. 의사결정나무 GridSearchCV feature_importances_
티스토리에 Jupyter notebook 깨끗하게 올리기 블로그에는 업데이트 하지 못하였지만 12월 ADP 실기 시험을 준비하고 있는데요, 공부하는 것이 쌓이다보니 잊어버리는 것도 많아 블로그에 정리를 계속 해두려고 합니다. 이전 게시글들은 Jupyter notebook에서 HTML 코드를 따와서 붙여넣기 했는데, 편집도 불편하고 가독성도 낮아서 깨끗하게 올릴수 있는 방법이 없을까하다가 발견한 방법이에요. 굉장히 간단한데 왜 몰랐을까요..ㅎㅎ 본문의 내용은 아래 블로그를 참조하였구요, 나중에 잊어버리면 찾아보려고 간단하게 정리해서 올립니다. 출처 : https://databuzz-team.github.io/2018/10/21/Github-Gist/ 1. Gist 사이트로 이동해서 게시글 올리려는 노트북 파일 올리기 https://gist.github.com/ ..
[Pandas] 데이터 Feature 파악 기본 (그래프) In [1]: from IPython.core.display import display, HTMLdisplay(HTML("")) 탐색적 데이터 분석¶데이터의 출처와 주제에 대한 이해데이터의 크기 확인 df.size데이터 구성요소(feature)의 속성 확인feature의 데이터를 이해하는 방법은?1. 위치 추정과 범위 추정¶위치 추정 : 데이터의 대푯값으로 feature의 특징 추정EDA 방법에서는 대푯값으로 중앙값(Median)을 많이 씀변이 추정 : 데이터의 분포로 feature의 특징 추정표준편차, 분산이 대표적은 분포 확인 값In [2]: import pandas as pddf = pd.DataFrame({ 'A' : [1, 2, 3, 4, 5, 6], ..
[Pandas] plotly 사용해서 시각화 해보기 2 학습 자료는 " 처음하는 파이썬 데이터 분석[전처리, pandas, 시각화까지 전과정 기본 기술 쉽게 익히기] (Dave Lee, 인프런) " 를 바탕으로 작성했습니다.¶3. plotly.graph_objects로 시각화 사용하기¶-iplot보다는 세부적으로 설정가능In [1]: from IPython.core.display import display, HTMLdisplay(HTML("")) In [2]: # !pip install plotlyimport plotly.graph_objects as goimport plotly.offline as pyo # jupyter notebook에서 보여지도록 설정하는 부분pyo.init_notebook_mode() ..
[Pandas] plotly 사용해서 시각화 해보기 1 학습 자료는 " 처음하는 파이썬 데이터 분석[전처리, pandas, 시각화까지 전과정 기본 기술 쉽게 익히기] (Dave Lee, 인프런) " 를 바탕으로 작성했습니다¶1. EDA를 위한 데이터 시각화¶ 시각화 라이브러리 matplotlib, seaborn, plotly (핫한 라이브러리) matplotlib은 오래된 전통적인 라이브러리 최신 시각화 라이브러리 : plotly pandas + plotly를 조합해서 최신/가장 빠르게 시각화 가능 pandas df.plotly(), 형태로 그래프를 바로 그릴 수 있음 https://plotly.com/python/ 2. iplot() 으로 시각화 사용하기¶ 데이터프레임.iplot(kind=그래프종류) 만으로 그래프를 그릴 수 있으므로, 매우 쉬움 단, 관련..
[Pandas] 데이터 처리 연습2 결과물 시각화 데이터 처리 연습2 게시물의 결과로 시각화한 결과. 시간에 따른 국가별 코로나 사망자 추이를 시각화한 것이다. 나중에는 Python 라이브러리로 구현할 수 있겠지? 이렇게 시간에 따라 bar chart가 변화하는걸 뭐라고 말하는지 모르겠다. 동적시각화?
[Pandas] 데이터 처리 연습 2 지난 게시글에서 데이터 처리 연습한것을 토대로, 날짜에 따라 국가별 코로나 사망자 수를 시각화하기 위해 데이터 처리 연습해봤다. 확실히 강의 내용 없이 혼자 하려니 쉽지 않다. 코드를 더 깔끔하게 작성할 수 있겠지만, 일단 이게 내 수준이니까 우선 수정없이 올려본다. 시간에 따른 국가별 사망자 추이를 시각화 해보자¶Table은 Country/Flag/Deaths(시간순) 순서로 구성 필요¶ In [1]: import pandas as pd import os path = ('../COVID-19-master/csse_covid_19_data/csse_covid_19_daily_reports/') df = pd.read_csv(path + '01-22-2020.csv', enco..
[Pandas] 데이터 처리 연습 Data processing 실습¶ 모든 학습 내용은 inflearn, 처음하는 파이썬 데이터 분석(잔재미코딩)에 기초하고 있습니다. reference : https://www.inflearn.com/course/%ED%8C%8C%EC%9D%B4%EC%8D%AC-%EB%8D%B0%EC%9D%B4%ED%84%B0%EB%B6%84%EC%84%9D-%EC%A0%84%EC%B2%98%EB%A6%AC-%ED%8C%90%EB%8B%A4%EC%8A%A4-%EC%8B%9C%EA%B0%81%ED%99%94/dashboard COVID-19 확진자 추이 그래프를 만들기 위한 Data Format In [ ]: raw data의 형태를 확인해보자¶ In [5]: import pandas as pd path = './..
[Pandas] DataFrame Join (concat, merge) [Pandas] 데이터 프레임 합치기 연습¶ In [1]: import pandas as pd In [2]: df1 = pd.DataFrame({ 'id' : [1, 2, 3], 'customer_id' : [1, 2, 3], 'customer_name' : ['Robert', 'Peter', 'Dave'] }) df1 Out[2]: id customer_id customer_name 0 1 1 Robert 1 2 2 Peter 2 3 3 Dave In [3]: df2 = pd.DataFrame({ 'id' : [1, 2, 3], 'order_id' : [100, 200, 300], &#39..