☞1판 1쇄 발행 2017년 6월 30일
최근 AI(Artificial Intelligence), 즉 인공지능에 대한 관심이 전 세계적으로 폭발적이다. 그러나 가트너에서 매년 발표하는 10대 기술에서 “빅데이터”라는 용어는 2014년 이후로 나타나지 않는다. 이는 ‘빅데이터’가 중요하지 않은 것이 아니라 2015년 이후의 10대 기술에 기반이 되거나 포함되었다는 것을 의미한다. ‘빅데이터’는 분석하여 분석 모델을 만들고 적용하는 것에서부터 시작하여 기계학습, 인공지능 등으로 활용할 수 있다.
“빅데이터”라는 용어는 우리 곁에 다가온 지 5년이 넘어가고 있다. 2012년에는 하드웨어, 네트워크, 디스크 제조 벤더가 주도하였지만, 인프라 구축과 기술의 검증이 끝나가면서 분석과 활용으로 중심이 바뀌었다. 지난 2015년까지 ‘빅데이터’와 ‘빅데이터 기술’이 중심이었다면 2016년부터는 빅데이터, 빅데이터 기술에 알고리즘이 추가되는 형태로 발전되어 가고 있다. 빅데이터 자체보다는 빅데이터를 어떻게 분석하고 어디에 활용하는지가 더 중요하게 되었다.
전문가라고 하더라도, 현실에서 만나는 대부분의 ‘빅데이터 분석’ 문제들을 만족스럽게 해결하기는 어렵다. ‘빅데이터 분석’은 다루는 범위가 넓기도 하지만, 정답이 무엇인지도 명확하지 않기 때문이다. 오늘은 이런 방법이 최선이었지만, 내일은 다른 방법이 있다는 것을 알게 될 수도 있다.
‘빅데이터 기술’과 ‘빅데이터 분석’은 다른 영역이다. ‘빅데이터 기술’은 컴퓨터공학을 전공한 사람들이 적용하고 발전시킨 것이고, ‘빅데이터 분석’은 통계학, 경영학, 사회학 등을 전공한 사람들이 가장 잘 활용할 수 있는 영역이다. 그러나 서로 생경한 영역이라 최근에는 ‘융합학문’이 대안으로 나타나고 있다. 컴퓨터공학을 전공한 사람은 비즈니스나 통계에 대해 비교적 어려워하고, 통계나 경영을 전공한 사람은 빅데이터 기술을 어려워한다. 이에 최근 가장 많이 활용되는 오픈소스 ‘R’을 쉽고 빠르게 활용할 수 있는 도구들도 나타나고 있다.
머지않아 국내에서도 관련 법규제에 대한 개선과 업계의 생태계가 만들어진다면 ‘데이터 가공, 유통’에 대해 많은 발전이 있을 것이다. 하지만 이 데이터를 해당 기관, 기업에 적합하게 분석할 수 있는 전문가는 그리 많지 않다. 현재 ‘빅데이터 분석 전문가’(이 책에서는 빅데이터 분석 기술전문가와 구분을 위하여 ‘빅데이터 큐레이터’라고 표현하였다)를 양성하는 교육도 기술에 치우쳐 있어 ‘빅데이터 분석’에 대한 이해와 실질적인 활용은 어렵다. 대부분의 빅데이터 도서도 빅데이터의 특정 기술을 중심으로 구성되어 있다. 이에 대한 안타까움으로 ‘빅데이터 기술’보다는 ‘빅데이터 분석’에 대한 이해를 중심으로 도서작업을 진행하였고, 향후 ‘빅데이터 분석 전문가, 즉 빅데이터 큐레이터’를 희망하는 잠재적 인재들을 대상으로 가능한 쉽게 이해할 수 있도록 책을 구성하였다.
이 책은 ‘빅데이터 분석’ 전반에 대해 설명한 개론서이다. 한편으로는 지은이의 주관적인 해석이나 견해를 곳곳에 담았다. 이는 ‘빅데이터 분석’에 관한 문제들을 한 번이라도 직접 생각하게 해보려는 의도가 들어 있다.
전문가로 불리는 누군가가 제시한 방안을 그대로 받아들이면, 현실의 ‘빅데이터 분석’ 문제를 해결할 능력이 길러지지 않는다. 당연한 이론이나 인기 있는 기술 지식이라도, 자세히 들여다보고 그것들이 잘못되거나 부족한 점이 있는지를 생각해보는 것이 중요하다. 따라서 이 책은 ‘빅데이터 분석’이 무엇인지 알아보려는 정도로 볼 책은 아니다. 빅데이터 분석에 관련된 기획이나 컨설팅, 개발을 하려는, 즉 어느 정도 이 분야에 대한 관심이 있는 사람들을 대상으로 한다.
‘빅데이터 분석’을 하고 있는 사람은 책의 제3부부터, ‘빅데이터 기술’에 대해 이해가 있는 사람은 제1부부터 정독을 한다면 현재 하고 있는 일과 하고자 하는 일에 대한 정리와 방향성이 나타날 것이다.
이 책은 빅데이터 분석에 대한 다양한 관점에서의 이해와 환경, 빅데이터 기획과 설계 측면에서 생각해보아야 할 것을 다루었다. 빅데이터 분석의 사례와 실제 적용 가능한 내용에 대해서는 한국서비스산업진흥원에서 주관하는『빅데이터 큐레이터 양성 과정』에서 실습을 통해 상세하게 다룰 예정이다.
이 책이 만들어지기까지 물심양면으로 많은 도움과 조언을 주신 한국서비스산업진흥원 이상범 이사님과 김태원 연구원님, 부산대학교 김이태 교수님, 영남이공대학교 김한주 교수님, 한국방송통신대학교 권세준 교수님, 서울신학대학교 최종률 교수님, 상명대학교 김영훈 교수님과 관련 임직원들에게 감사드린다.
2017년 5월
김영배, 김선영, 안동혁
l 차 례 ㅣ
제1부 빅데이터 기획
1장 빅데이터 분석을 위한 업무절차 ........................................................ 3
1.1 업무절차 범위 .................................................................................................... 3
1.2 업무절차 개요 ................................................................................................... 3
1.3 빅데이터 수집 ................................................................................................... 4
1.4 빅데이터 저장 ................................................................................................... 5
1.5 빅데이터 처리 ................................................................................................... 6
1.6 빅데이터 보안 .................................................................................................... 7
1.7 빅데이터 품질 ................................................................................................... 8
제2부 빅데이터 설계
2장 빅데이터 분석 비즈니스 .......................................................................... 11
2.1 데이터 비즈니스 ............................................................................................ 11
2.2 비즈니스와 시스템 ..................................................................................... 12
2.3 파레토 법칙(Pareto’s Law) .................................................................. 13
2.4 롱테일 이론(Long-Tail Theory) ...................................................... 15
3장 빅데이터 분석 주제와 시스템 기획 ........................................... 17
3.1 빅데이터 분석 주제 도출 ....................................................................... 17
3.2 구축하지 않고 시스템 만들기 .......................................................... 22
3.3 분석 시스템 개념 설계 .......................................................................... 25
4장 빅데이터 수집과 저장 .............................................................................. 37
4.1 분석을 먼저 생각해야 하는 이유 .................................................... 37
4.2 빅데[이터 수집 ............................................................................................. 39
4.3 빅데이터 저장 ............................................................................................... 42
4.4 데이터품질 ...................................................................................................... 52
4.5 데이터 수집 인터페이스와 인공지능 .......................................... 54
5장 빅데이터 처리 ................................................................................................... 57
5.1 분석을 위한 데이터와 데이터 처리 .............................................. 57
5.2 데이터마트와 분석지표 .......................................................................... 61
5.3 다차원 모델링의 적용 ............................................................................ 64
5.4 분석 모형을 위한 데이터 준비 ........................................................ 68
5.5 HDFS에서의 데이터 처리 ................................................................... 69
5.6 실시간, 배치, 스트리밍 .......................................................................... 70
6장 빅데이터 분석 제품과 변화하는 기술 .................................... 73
6.1 분석 제품의 선택 ........................................................................................ 73
6.2 제품의 대체와 변화 .................................................................................. 78
6.3 인공지능에 인한 제품의 변화 .......................................................... 79
제3부 빅데이터 분석
7장 빅데이터 분석 비즈니스 ........................................................................ 83
7.1 빅데이터의 실제 모습 .............................................................................. 83
7.2 정보와 데이터 ............................................................................................... 86
7.3 과거의 빅데이터 접근법 ....................................................................... 88
7.4 빅데이터에서 중요한 것 ....................................................................... 90
8장 빅데이터 분석 동향 ..................................................................................... 91
8.1 빅데이터 분석의 시대적 흐름 ............................................................ 91
8.2 플랫폼 관점의 동향 .................................................................................. 93
8.3 데이터 관점의 동향 .................................................................................. 95
8.4 알고리즘 관점의 동향 ............................................................................ 99
8.5 활용 관점의 동향 ....................................................................................... 99
8.6 공공 데이터 개방 동향 ......................................................................... 101
9장 빅데이터 분석 바라보기 ..................................................................... 103
9.1 책과 신문 기사에서 소개되는 분석 ............................................ 103
9.2 실제 기업에서 원하는 분석 .............................................................. 103
9.3 데이터에서 분석까지의 거리 .......................................................... 108
9.4 개념적인 분석 기법 리뷰 .................................................................... 110
10장 데이터 의미 표현을 위한 빅데이터 분석 ........................ 117
10.1 데이터 분석 방법의 구분 ................................................................... 117
10.2 OLAP과 Reporting ................................................................................ 117
10.3 대시보드 ....................................................................................................... 124
10.4 시각화 ............................................................................................................. 126
11장 추측과 의미 파악을 위한 빅데이터 분석 ...................... 131
11.1 통계 ...................................................................................................................... 131
11.2 기계학습과 딥러닝 ................................................................................. 155
11.3 오차 기반의 기계학습과 유사성 기반의 기계학습 ........ 166
11.4 정보 기반의 기계학습 .......................................................................... 172
11.5 베이즈정리 기반의 기계학습 ......................................................... 175
11.6 기계학습에서의 다양한 학습 방법 ............................................. 177
12장 의사결정에 직접 활용하기 위한 빅데이터 분석 .... 183
12.1 최적화 .............................................................................................................. 183
12.2 예측과 추정을 위한 확률과정 모형 ......................................... 194
12.3 시나리오 기반 시뮬레이션 ............................................................. 200
13장 데이터 과학자 ............................................................................................ 203
13.1 데이터 과학자의 모습 ........................................................................ 203
13.2 분석 필요성의 판단 ............................................................................. 204
13.3 분석 데이터 만들기 ............................................................................. 205
13.4 분석의 검증과 모니터링 .................................................................. 206
13.5 데이터 과학자로서의 견해 ............................................................. 212
제4부 빅데이터 융합
14장 빅데이터 분석 도구 (화수목 Analytics) ............................ 219
14.1 시스템 개요 ................................................................................................. 219
14.2 분석 워크플로우 .................................................................................... 220
국문색인 ............................................................................................................................ 273
영문색인 ............................................................................................................................ 276
●김영배
한국서비스산업진흥원 이사장
한국NCS자격개발원 이사장
경기콘텐츠 진흥원 비상임 이사
상명대학교 특임 교수
동방문화대학원 교수
●김선영
(주)위세아이텍 전략마케팅 실장, 빅데이터사업본부장, 데이터관리사업본부장 역임
한국NCS개발원 빅데이터 전문위원
한국서비스산업진흥원 빅데이터팀 수석연구원
한국산업기술대학교 컴퓨터공학부 겸임교수
빅데이터 기획과 분석에 대해 기관·기업에 자문과 특강 진행
4차 사업혁명에 대해 연구 진행
●안동혁
연세대학교 경영학 졸업
KAIST 경영공학 석사 (최적화 전공)
(주)위세아이텍 연구소장 역임
유한회사 화수목 대표이사
'2013 우수 DB인 상' DB솔루션 이노베이터(Innovator) 부문 수상
빅데이터 분석 솔루션과 서비스를 기획하고 분석결과에 대한 최적화 연구 진행