예전에 면접볼 때 받았던 질문 중에 탐색적 데이터 분석이 무엇인지와, 고객이 데이터를 던져줬을때 어떻게 EDA를 할 것인가라는 질문을 받았던 경험이 있다.
그 경험을 바탕으로 탐색적 데이터 분석. EDA(Exploratory Data Analysis)가 무엇인가에 대해 알아보고자 한다.
1) 정의
탐색적 데이터 분석이란. 데이터를 수집하고, 수집된 데이터를 다양한 방면에서 관찰하고 이해하는 과정이다.
데이터를 분석하기 전에 통계적으로 해석하거나 그래프를 그려 시각화하고 데이터를 직관화하는 과정을 말한다.
EDA의 E가 의미하는 Exploratory의 뜻은 우리가 풀어야 하는 문제에 대한 분석이 초기에 정해진대로
쭉 이어가야한다는 의미가 아니라 말 그대로 '탐색적' 방식을 통해 분석을 진행하면서 바뀌게 될 수도 있음을 의미한다.
한마디로 정리하자면!
데이터를 기술적인 통계기법(평균, 분산, 표준편차 등)과 시각화를 통해
다양한 방면으로 분석하는 것이라 할 수 있다.
2) 왜 필요한가?
① 데이터가 가지고 있는 분포(Distribution)와 값(Value)을 다양한 관점에서 바라봄으로써 데이터가 가지고 있는 현상을 발견할 수 있고, 데이터의 잠재적인 현상을 이해할 수 있다.
② 데이터를 다양한 각도에서 살펴하는 과정을 통해 미처 발견하지 못했던 다양한 패턴을 발견, 기존의 가설을 수정하거나 새로운 가설을 세울 수 있다.
③ 탐색적 데이터 분석의 최종적 목표는 데이터를 이해하는 것이다. 데이터 이해를 통해 적절한 통계 도구를 제시하고 추가 자료수집을 위한 기반이 되기도 한다.
3) 탐색적 데이터 분석 과정
① 전체적인 데이터 분석
데이터 항목의 개수, 속성 목록, NaN값 등과 데이터 가공 과정에서 데이터의 오류나 누락 등이 없는지 확인해야한다. 또한, 데이터를 구성하는 각 속성 값이 미리 예측한 범위와 분포를 가지는 지 확인한다.
② 이상값(outlier) 확인
데이터에 이상치를 발견했다면, 이상치가 왜 발생했는지 의미를 파악하는 것이 중요하다. 이상치가 발생한 의미를 파악했다면 이 이상치를 어떻게 처리할 것인가도 중요한 문제다. (제거, 대체, 유지 등)
데이터가 많을 경우, 이상치를 확인하기 위해 특정 부분만 보게 된다면, 다른 부분에서 나타날 수도 있으므로 앞이나 뒤, 무작위로 표본을 추출하여 확인을 해야한다. 나아가 적절한 통계지표와 시각화 자료를 통해서 이상값을 확인한다.
③ 속성 간의 관계 분석하기
이 과정의 키포인트는 서로 상관관계를 가지는 속성들의 조합을 찾아내는 것이다. 분석의 대상이 되는 속성의 종류에 따라서 분석 방법도 달라져야 한다. 변수 속성에는 질적 변수와 양적변수가 있다.
질적 변수 | 명목형 데이터 |
순서형 데이터 | |
양적 변수 | 연속형 데이터 |
이산형 데이터 |
먼저 양적뱐수의 이산형 변수의 경우 상관계수를 통해 두 속성 간의 연관성을 나타냅니다. 히트맵이다 산점도 그래프를 통해 시각화 할 수 있다. 변수의 특성에 따라 Box plot, 파이차트, 모자이크 그래프, PCA plot 등 다양한 그래프를 통해 시각화하여 속성 간의 관계를 분석하는 방법도 효율적이다.
https://eda-ai-lab.tistory.com/13
https://m.blog.naver.com/youji4ever/221705683091
'프로그래밍' 카테고리의 다른 글
빅데이터 분석기사 1-1. 빅데이터의 이해 (2) (0) | 2021.01.17 |
---|---|
윈도우10에서 리눅스 환경 구동하기 Feat.우분투(Ubuntu) (0) | 2021.01.17 |
빅데이터 분석기사 1-1. 빅데이터의 이해(1) (0) | 2021.01.16 |
파이썬 연습 - Folium으로 로드킬 맵 만들기 (2) | 2020.11.28 |
파이썬 연습 - Folium으로 고령자 지도 그리기 (0) | 2020.11.28 |