EDA(Exploratory Data Analysis)는 데이터 분석을 위해 Rawdata를 다양한 각도에서 관찰, 이해하는 과정.
EDA의 과정을 정형화 하기는 어렵겠지만, 기본이 되는 3가지 과정은 존재한다.
① 데이터 출처와 주제에 대한 이해
- 믿을만한 Data 인지?, Data는 어떻게 발생하는지?, 각 Column의 의미 파악 등.
② 데이터의 크기 이해
- df.head(), df.tail(), df.describe(), df.shape, df.info()
③ 데이터 구성 요소(Feature)의 속성(특징) 확인
- doc.corr() : Feature간의 피어슨(Pearson) 상관계수 계산
강의에서는 EDA에 대한 과정은 굉장히 러프하게 다뤄서, 정리할게 많지가 않네.
실제 데이터를 분석하게되면 자세하게 정리해보자.
'데이터분석 > Pandas' 카테고리의 다른 글
[Pandas] 데이터 처리 연습 2 (0) | 2021.07.17 |
---|---|
[Pandas] 데이터 처리 연습 (0) | 2021.07.15 |
[Pandas] DataFrame Join (concat, merge) (0) | 2021.07.12 |
[Pandas] 데이터 처리 연습 (0) | 2021.07.12 |
[Pandas] 기초 이해 (0) | 2021.07.08 |