그레이먼지 2022. 10. 11. 17:51

 

 

EDA 란

데이터 분석이나 모델링을 할 때 미리 데이터를 어떻게 분석할지 견적을 세우는 기초공사

통계치, 시각화를 통해 데이터를 살펴보는 과정

https://eda-ai-lab.tistory.com/13

 

EDA의 중요성

- 원본 데이터를 바로 분석에 사용하기 어려움 -> 직관적으로 데이터에 대해 insight를 으려고

- 어떤 데이터인지 알고 있어야 어떤 분석이나 모델링을 할지 예상할 수 있음

 

EDA vs 전처리

reference 마다 조금씩 의견이 다름. 

현실 데이터(row data)를 분석 가능할 수 있을 정도로 만드는 것 : 전처리

어떤 분석을 할지 insight를 얻는 과정 : EDA

전처리-> EDA 도 EDA->전처리도 가능.

먼저 다 데이터프레임화 시킨 다음 인사이트 도출하냐

먼저 EDA를 통해 전체 구조를 확인한 후 방향에 맞게 DataFrame화 하냐의 차이

 

결국 EDA란 데이터셋이 문제가 없는지(이상치확인), 어떤 알고리즘을 돌리면 되는 지를 확인하는 과정이라고 할 수 있다.

 

 

- EDA는 알고리즘을 돌리기 전에 비용을 줄이기 위해 체크하는 과정.

- 전처리는 수집된 데이터를 이상하거나 극단적인 데이터가 섞여 있을 수 있어서 정제하고 가공하고 변환하는 과정으로 모델링에 필요한 변수로 만드는 과정이다.

 

 

 

출처: https://mrlazydev.tistory.com/entry/전처리processing-vs-탐색적-데이터-분석EDA?category=1044282 

 

전처리(processing) vs 탐색적 데이터 분석(EDA)

데이터에서 가장 오래 걸리는 작업은 데이터를 수집하고 전처리하는 과정이라고 한다. 데이터 사이언스의 프로세스 현실에서 데이터를 수집하고 전처리 과정을 거치면 클린 데이터셋이 나오는

mrlazydev.tistory.com