본문 바로가기
프로그래밍

빅데이터 분석기사 1-2 데이터 분석 계획 (1)

by choihyuunmin 2021. 2. 5.

1_ 분석 방안 수립

 

1) 분석 로드맵 설정

 

 

(1) 빅데이터 분석 기획 개요

1. NCS 빅데이터 분석 기획

> 빅데이터 분석 기획의 능력 단위 요소 : 도메인 이슈 도출하기, 분석 목표 수립하기, 프로젝트 계획하기, 보유 데이터 자산 확인하기

 

2. 분석 대상과 그 방법에 따른 4가지 분석 주제

분석 대상과 그 방법에 따른 4가지 분석 주제

 

- 분석 기획 시 고려사항 : 가용 데이터, 적절한 활용 방안과 유즈케이스, 사전 계획 수립

 

 

 

 

3. 분석 방법론

- 업무의 특성에 따른 분석 방법론

  • 폭포수 모델(Waterfall) : 단계를 순차적으로 진행, 전형적인 SW 개발 방식
  • 프로토타입 모델(Prototype) : 일부분을 먼저 개발하고 난 뒤, 요구 분석과 성능 분석, 개선 순서로 진행
  • 나선형 모델 : 

 

- KDD(Knowledge Discovery in Database) 분석 방법론

  • 1단계 -> 데이터셋 선택 
  • 2단계 -> 데이터 전처리 : 잡음, 이상치, 결측치 파악 후 재가공
  • 3단계 -> 데이터 변환 :변수 생성, 선택 데이터 차원 축소, 학습용/검증용 데이터로 분리
  • 4단계 -> 데이터 마이닝
  • 5단계 -> 해석과 평가

 

- CRISP-DM(Cross Industry Standard Process for Data Mining)

  • 1단계 -> 업무 이해 : 업무 목적 파악, 데이터 마이닝 목표 설정
  • 2단계 -> 데이터 이해 : 초기 데이터 수집, 기술 분석
  • 3단계 -> 데이터 준비 : 데이터 정제, 데이터 통합, 포매팅
  • 4단계 -> 모델링 : 모델 기법 선택
  • 5단계 -> 평가
  • 6단계 -> 전개

 

- 빅데이터 분석의 계층적 프로세스 
   : 단계(Phase), 태스크(Task), 스텝(Step)

 

- 5단계 빅데이터 분석 방법론 >> 널리 사용됨

출처 : 시험에 꼭 나오는빅데이터 분석 방법론5단계/데이터에듀 네이버 포스트

 

post.naver.com/viewer/postView.nhn?volumeNo=27714302&memberNo=22344892

 

시험에 꼭 나오는 빅데이터 분석 방법론 5단계

[BY 데이터에듀] 코로나 19 극복! 데이터에듀에서 무료강의 들으세요

m.post.naver.com

 

 

(2) 분석과제 발굴 방법론

1. 하향식 접근법

분석 대상이 무엇인지 알고 있을 때 사용. 

  • 1-문제 탐색 단계 : 문제를 탐색하는 단계, 4가지 방법 중 하나 혹은 다수를 사용
                            4가지 방법 :
    비즈니스 모델 탐색 기법, 분석기회 발굴 및 범위 확장, 외부 참조 모델 기반 문제 탐색, 분석 유즈케이스
  • 2- 문제 정의 단계 : 비즈니스 문제를 데이터의 문제로 변환
  • 3- 해결방안 탐색 단계 : 기존 시스템으로 가능한지와 기업 자체의 역량이 있는지를 판단하여 탐색
  • 4- 타당성 검토

 

2. 상향식 접근법

분석 대상이 무엇인지 모를 경우 분석과제 발굴을 위해 사용하는 방법.
원천 데이터로부터 통찰과 지식을 얻는 접근 방법

  • 지도·비지도학습 : 상향식 접근법의 하나로 머신러닝, 의사결정 트리, 인공신경망 모형, 주성분 분석 등이 있다.
  • 프로토타입 접근법 : 시행착오 해결법이라고도 함. 

 

 

(3) 분석 로드맵 수립

1. 분석 로드맵 수립 개요

 - 분석 로드맵은 빅데이터 분석에 있어 마스터플랜을 수립하는 단계. 
   분석 로드맵 수립을 위해서는 전략적 중요도, 비즈니스 성과 및 ROI, 분석과제의 실행 용이성을 고려해야 함.

 

2. 빅데이터 특징을 고려한 분석 ROI 요소

 - ROI(Return On Investment) : 투자수익률

출처 : [3과목:데이터 분석 기획] PART 2(2)/ 노루의 발자국 티스토리

 

3. 우선순위 평가

- 시급성 : Value

- 난이도 : Volume, Variety, Velocity