본문 바로가기

데이터분석/Pandas

(10)
[Pandas] 데이터 Feature 파악 기본 (그래프) In [1]: from IPython.core.display import display, HTMLdisplay(HTML("")) 탐색적 데이터 분석¶데이터의 출처와 주제에 대한 이해데이터의 크기 확인 df.size데이터 구성요소(feature)의 속성 확인feature의 데이터를 이해하는 방법은?1. 위치 추정과 범위 추정¶위치 추정 : 데이터의 대푯값으로 feature의 특징 추정EDA 방법에서는 대푯값으로 중앙값(Median)을 많이 씀변이 추정 : 데이터의 분포로 feature의 특징 추정표준편차, 분산이 대표적은 분포 확인 값In [2]: import pandas as pddf = pd.DataFrame({ 'A' : [1, 2, 3, 4, 5, 6], ..
[Pandas] plotly 사용해서 시각화 해보기 2 학습 자료는 " 처음하는 파이썬 데이터 분석[전처리, pandas, 시각화까지 전과정 기본 기술 쉽게 익히기] (Dave Lee, 인프런) " 를 바탕으로 작성했습니다.¶3. plotly.graph_objects로 시각화 사용하기¶-iplot보다는 세부적으로 설정가능In [1]: from IPython.core.display import display, HTMLdisplay(HTML("")) In [2]: # !pip install plotlyimport plotly.graph_objects as goimport plotly.offline as pyo # jupyter notebook에서 보여지도록 설정하는 부분pyo.init_notebook_mode() ..
[Pandas] plotly 사용해서 시각화 해보기 1 학습 자료는 " 처음하는 파이썬 데이터 분석[전처리, pandas, 시각화까지 전과정 기본 기술 쉽게 익히기] (Dave Lee, 인프런) " 를 바탕으로 작성했습니다¶1. EDA를 위한 데이터 시각화¶ 시각화 라이브러리 matplotlib, seaborn, plotly (핫한 라이브러리) matplotlib은 오래된 전통적인 라이브러리 최신 시각화 라이브러리 : plotly pandas + plotly를 조합해서 최신/가장 빠르게 시각화 가능 pandas df.plotly(), 형태로 그래프를 바로 그릴 수 있음 https://plotly.com/python/ 2. iplot() 으로 시각화 사용하기¶ 데이터프레임.iplot(kind=그래프종류) 만으로 그래프를 그릴 수 있으므로, 매우 쉬움 단, 관련..
[Pandas] 데이터 처리 연습2 결과물 시각화 데이터 처리 연습2 게시물의 결과로 시각화한 결과. 시간에 따른 국가별 코로나 사망자 추이를 시각화한 것이다. 나중에는 Python 라이브러리로 구현할 수 있겠지? 이렇게 시간에 따라 bar chart가 변화하는걸 뭐라고 말하는지 모르겠다. 동적시각화?
[Pandas] 데이터 처리 연습 2 지난 게시글에서 데이터 처리 연습한것을 토대로, 날짜에 따라 국가별 코로나 사망자 수를 시각화하기 위해 데이터 처리 연습해봤다. 확실히 강의 내용 없이 혼자 하려니 쉽지 않다. 코드를 더 깔끔하게 작성할 수 있겠지만, 일단 이게 내 수준이니까 우선 수정없이 올려본다. 시간에 따른 국가별 사망자 추이를 시각화 해보자¶Table은 Country/Flag/Deaths(시간순) 순서로 구성 필요¶ In [1]: import pandas as pd import os path = ('../COVID-19-master/csse_covid_19_data/csse_covid_19_daily_reports/') df = pd.read_csv(path + '01-22-2020.csv', enco..
[Pandas] 데이터 처리 연습 Data processing 실습¶ 모든 학습 내용은 inflearn, 처음하는 파이썬 데이터 분석(잔재미코딩)에 기초하고 있습니다. reference : https://www.inflearn.com/course/%ED%8C%8C%EC%9D%B4%EC%8D%AC-%EB%8D%B0%EC%9D%B4%ED%84%B0%EB%B6%84%EC%84%9D-%EC%A0%84%EC%B2%98%EB%A6%AC-%ED%8C%90%EB%8B%A4%EC%8A%A4-%EC%8B%9C%EA%B0%81%ED%99%94/dashboard COVID-19 확진자 추이 그래프를 만들기 위한 Data Format In [ ]: raw data의 형태를 확인해보자¶ In [5]: import pandas as pd path = './..
[Pandas] DataFrame Join (concat, merge) [Pandas] 데이터 프레임 합치기 연습¶ In [1]: import pandas as pd In [2]: df1 = pd.DataFrame({ 'id' : [1, 2, 3], 'customer_id' : [1, 2, 3], 'customer_name' : ['Robert', 'Peter', 'Dave'] }) df1 Out[2]: id customer_id customer_name 0 1 1 Robert 1 2 2 Peter 2 3 3 Dave In [3]: df2 = pd.DataFrame({ 'id' : [1, 2, 3], 'order_id' : [100, 200, 300], &#39..
[Pandas] 데이터 처리 연습 [Pandas] 데이터 처리 연습¶ In [1]: import pandas as pd # 자주 쓰는 경로는 변수에 저장 path = './COVID-19-master/csse_covid_19_data/csse_covid_19_daily_reports/' doc = pd.read_csv(path + '04-01-2020.csv', encoding = 'utf-8-sig') In [2]: doc.head() Out[2]: FIPS Admin2 Province_State Country_Region Last_Update Lat Long_ Confirmed Deaths Recovered Active Combined_Key 0 45001.0 Abbeville South C..
[Pandas] EDA 기초 이해 EDA(Exploratory Data Analysis)는 데이터 분석을 위해 Rawdata를 다양한 각도에서 관찰, 이해하는 과정. EDA의 과정을 정형화 하기는 어렵겠지만, 기본이 되는 3가지 과정은 존재한다. ① 데이터 출처와 주제에 대한 이해 - 믿을만한 Data 인지?, Data는 어떻게 발생하는지?, 각 Column의 의미 파악 등. ② 데이터의 크기 이해 - df.head(), df.tail(), df.describe(), df.shape, df.info() ③ 데이터 구성 요소(Feature)의 속성(특징) 확인 - doc.corr() : Feature간의 피어슨(Pearson) 상관계수 계산 강의에서는 EDA에 대한 과정은 굉장히 러프하게 다뤄서, 정리할게 많지가 않네. 실제 데이터를 분석..
[Pandas] 기초 이해 Pandas에서 Data 구조는 Series와 Dataframe으로 구분 ① Series : 1차원 데이터 , Index와 Value로 구성 ② Dataframe : 2차원 데이터, Index, Column, Value로 구성 ■ Series 데이터의 CRUD (Create, Read & Update, Delete) 1. Create (pd.Series로 Series 데이터 선언) import pandas as pd seriesdata = pd.Series([70, 60, 90], index = ['국어', '영어', '수학']) 2. Read & Update - Index로 Value 불러오기 seriesdata['국어'] seriesdata['영어'] - 새로운 값 할당 seriesdata['국어']..