본문 바로가기
프로그래밍

빅데이터 분석기사 1-1. 빅데이터의 이해(1)

by choihyuunmin 2021. 1. 16.

2021년 올 한해의 목표로 이번에 신설된 기사시험인 빅데이터 분석기사 자격증 취득을 목표로 삼았다.

진로를 내가 가지고 있는 전공과 정반대로 확 틀었고, 내가 이 분야에 관심을 가지고 있다는 것을 

어필하기 위한 여러 가지 방법 중 하나이기 때문에 절실하게 느껴진다.

공부를 하면서 복습할 겸, 누군가에게 도움이 된다면 도움을 주고자 블로그에 공부했던 내용을 올리기로 결심했다.

공부를 하면서 암기가 필요하다고 생각되는 부분만 간추려서 올릴 계획이고, 암기를 목적으로 하는 필기이기 때문에

이해하기 쉽고 간단하게 설명하고자 한다.

전문가가 아니기에 글을 올리면서 종종 오류도 발생할 수 있을 거라 생각한다. 누가 볼 진 모르겠지만 

서로 공부가 될 수 있을 거라 생각하기에 오류를 발견하게 되면 댓글로 알려주셨으면 좋겠다.

 

참고로 기사 시험을 준비하는 데 공부한 교재는 위키북스의 'EASY PASS! 2021 빅데이터 분석기사 필기'다.

위키북스 'EASY PASS! 2021빅데이터 분석기사 필기


 1-1 빅데이터의 이해

1_ 빅데이터의 개요 및 활용

 

1) 데이터기초

 

(1) 데이터의 이해


1. 데이터의 정의

데이터는 객관적 사실(fact)이라는 '존재적 특성'을 가짐과 동시에 근거(basis)로서의 '당위적 특성'을 함께 가진다. 예를 들어, 온도 기압 습도 풍향과 같은 객관적인 자료와 함께 이 객관적인 자료를 통해 일기예보라는 추론과 추정이 가능하다. 이러한 추론과 추정은 당위적인 특성이다.

2. 데이터의 유형

정량적 데이터(정형 데이터) 수치로 표현할 수 있는 숫자, 도형, 기호 등의 데이터 키, 몸무게, 나이 등
정성적 데이터(비정형 데이터) 언어, 문자 등의 정형화되지 않은 데이터 검색어, 노래 가사 등

 

3. 암묵지와 형식지

-암묵지 : 개인에게 습득되어 있지만, 겉으로 드러나지 않은 상태의 지식. 머릿속에 존재하는 지식으로
            형식적으로 표현하지 않은 지식. ex) 각 가정마다 다른 김장 방법

 

 

                                         지식과 지식전환의 단계                                              The Knowledge-Creating Company-Nonaka : 네이버 블로그

 

 

4. 데이터와 정보 

DIKW 피라미드

 

데이터는 객관적인 사실을 의미한다. A의 키는 170cm B의 키는 167cm과 같은 객관적인 수치를 의미한다.

정보는 데이터 간의 관계 속에서 의미가 도출된 것을 의미한다. 'A가 B보다 3cm가 크기 때문에 A의 키가 더 크다'와 같은 예를 들 수 있다.

지식은 도출된 정보를 구조화하여 유의미한 지식으로 내재화한 것이다. A는 170cm가 넘어야 탈 수 있는 놀이기구를 탈 수 있다. 와 같이 유의미한 정보를 구조화한다.

지혜는 지식의 축적과 아이디어가 결합된 창의적 산물이다. 여기서 눈여겨볼 점은 창의적이라는 단어다. A의 키가 B보다 더 크기 때문에 A의 발사이즈도 더 클 것이다와 같은 창의력을 의미한다.

 

(2) 데이터베이스의 정의와 특징

 

DB 시스템 DB
(Data-Base)
체계적으로 수집, 축적하여 다양한 방법으로 이용할 수 있는 정보의 집합체
DBMS
(Data-Base Management System)
이용자가 쉽게 데이터베이스를 구축, 유지할 수 있게 하는 관리
소프트웨어

 

1. 데이터베이스의 일반적 특징

- 통합된 데이터(Integrated data)
- 저장된 데이터(Stored data)
- 공용 데이터(Shared data)
- 변화하는 데이터(Operational data)

2. 데이터베이스의 특징

- 정보의 축적 및 전달 측면 : 기계 가독성, 검색 가능성, 원격 조작성
- 정보이용 측면 : 원하는 정보를 정확하고 경제적으로 찾아낼 수 있다.
- 정보관리 측면 : 방대한 양의 정보를 체계적으로 축적하고, 새로운 내용의 추가나 갱신 용이
- 정보기술발전 측면 : 데이터베이스는 정보기술발전을 견인할 수 있다.
- 경제, 산업적 측면 : 다양한 정보를 필요에 따라 신속하게 제공, 이용하게 함

 

(3) 데이터베이스의 활용

1.  기업 내부의 데이터베이스

- OLTP(Online Transaction Processing) : 네트워크 상의 여러 이용자가 실시간으로 데이터베이스를 갱신하거나 조회하는 등의 작업을 처리하는 방식. '온라인 거래 처리'라고도 불리는 이 방법은 신용카드 조회 업무나 자동 현금 지급과 같은 시스템에 이용된다.

- OLAP(Online Analytical Processing) : 사용자가 다양한 각도에서 직접 대화식으로 정보를 분석하는 과정. 단독으로 존재하지 않고 데이터 웨어하우스나 데이터 마트와 같은 상호 시스템과 연관된다. 데이터 웨어하우스는 데이터를 저장하고 관리하는 데이터베이스인데 OLAP를 이용하여 기본적인 접근, 조회, 계산 등을 수행한다.

 

 

2_ 빅데이터의 이해와 가치

(1) 빅데이터의 이해

 

1. 빅데이터의 특징

- 일반적으로 빅데이터의 가장 기본적인 특징은 3V라고 한다. 3V는 
Volume(크기), Variety(다양성), Velocity(속도)를 의미한다.

2. 빅데이터에 거는 기대

- 산업혁명의 석탄과 철
- 21세기 원유 
- 렌즈 : 구글의 Ngram Viewer
- 플랫폼 : 페이스북, 카카오톡

3. 빅데이터가 만들어내는 변화

- 사전처리 -> 사후처리
- 표본조사 -> 전수조사
- 질 -> 양
- 인과관계 -> 상관관계

 

(2) 빅데이터의 가치와 영향

1. 빅데이터의 영향

- 빅데이터가 가치를 만들어내는 5가지 방식
  ① 투명성 제고로 연구개발 및 관리 효율성 제고
  ② 시뮬레이션을 통한 수요 포착 및 주요 변수 탐색으로 경쟁력 강화
  ③ 고객 세분화 및 맞춤 서비스 제공
  ④ 알고리즘을 활용한 의사결정 보조 혹은 대체
  ⑤ 비즈니스 모델과 제품, 서비스의 혁신 등

 

(3) 빅데이터와 비즈니스 모델

1. 7가지 빅데이터 활용 기본 테크닉 

연관규칙 학습 - A를 구매하면 B를 많이 구매하는가?
- 장바구니 분석
- 수면시간과 건강 관계
유형분석 - 고객을 세분화(Segment)
- 소비자 유형 분류
유전 알고리즘 - 최대의 시청률을 얻으려면 어떤 프로그램을 어떤 시간에 방송할지 파악
- 최적화된 시간과 위치에 택배 차량을 배치
머신러닝 - 넷플릭스의 영화 추천 시스템
- 자율주행
회귀분석 - 구매자의 나이가 구매 차량의 타입에 어떤 영향을 미치는가?
- 독립변수를 조작하면서 종속변수에 미치는 결과 확인
감정분석 - 특정 주제에 대해 글을 쓴 사람의 감정을 분석
소셜 네트워크 분석 - 고객 간 소셜 관계를 파악
- 이 사람이 어느 정도 영향력을 가진 유명인인가?

 

(4) 빅데이터의 위기 요인과 통제 방안

- 사생활 침해 -> 동의에서 책임으로

- 책임 원칙 훼손(ex. 마이너리티 리포트 : 범죄를 예측하고 범인을 잡았는데 과연 범인이 맞는가?)
   -> 결과 기반 책임 원칙 고수

- 데이터 오용 -> 알고리즘 접근 허용