책소개
『No Code 빅데이터 분석』의 목적은 데이터 분석을 배우는 것이다. 데이터 분석의 전체적인 맥락을 놓치지 않도록 하기 위해 이 책은 CRISP-DM 방법론을 따라 학습하도록 내용을 구성하였다.
목차
제1장 서론 1
1.1 AI Studio 소개...............................................................4
1.2 사용자 인터페이스...........................................................5
1.3 오퍼레이터 사용 방법.......................................................8
1.4 AI Studio분석 프로세스................................................. 14
1.5 데이터 분석 방법론........................................................ 24
1.6 결론............................................................................ 28
제2장 비즈니스 이해 31
2.1 서론............................................................................ 32
2.2 비즈니스 목표를 결정하라 .............................................. 33
2.3 상황을 평가하라............................................................ 37
2.4 데이터 분석 목표 결정하라 ............................................. 42
2.5 프로젝트 계획서를 작성하라 ........................................... 53
2.6 결론............................................................................ 55
제3장 데이터 이해 57
3.1 서론............................................................................ 58
3.2 초기 데이터를 수집하라 ................................................. 59
3.3 데이터를 설명하라......................................................... 77
3.4 데이터를 탐색하라 ........................................................ 91
3.5 데이터 품질을 검증하라................................................ 100
3.6 결론.......................................................................... 102
제4장 데이터 준비 103
4.1 서론.......................................................................... 104
4.2 데이터를 통합하라....................................................... 105
4.3 데이터를 선택하라....................................................... 116
4.4 데이터를 생성하라....................................................... 120
4.5 데이터 형식을 지정하라 ............................................... 132
4.6 결론.......................................................................... 139
제5장 모델링 141
5.1 서론.......................................................................... 142
5.2 모델링 기법을 선택하라................................................ 143
5.3 테스트 디자인하라 ..................................................... 146
5.4 모델을 구축하라.......................................................... 148
5.5 결론.......................................................................... 296
제6장 평가 297
6.1 서론.......................................................................... 298
6.2 결과를 평가하라.......................................................... 299
6.3 프로세스를 검토하라.................................................... 301
6.4 다음 단계 결정하라...................................................... 303
6.5 결론.......................................................................... 303
제7장 배치 305
7.1 서론.......................................................................... 306
7.2 배치를 계획하라.......................................................... 308
7.3 모니터링 및 유지 관리를 계획하라.................................. 309
7.4 최종 보고서를 작성하라................................................ 313
7.5 프로젝트를 검토하라.................................................... 314
7.6 결론.......................................................................... 315
제8장 결론 317
참고문헌 319
색인 323
저자소개
출판사리뷰
머리말
데이터 분석이 기본 소양이 되는 시대가 되었다. 데이터를 활용하는 것은 이미 오래전부터 강조되어 왔지만, 근래에 들어 데이터 분석이 개인이나 조직의 생존과 발전을 위한 필수 사항이 되고 있다.
데이터 분석을 머신러닝과 같은 것으로 보는 사람도 있다. 그러나 이 두 분야는 서로 다른 목적으로 존재한다. 머신러닝은 추상화된 문제를 해결하는 방법, 즉 알고리즘의 개발을 주요 목적으로 하는 반면, 데이터 분석은 머신러닝을 포함한 다양한 분석 방법을 사용하여 현실의 문제를 해결하기 위한 통찰(insights)을 얻는 것을 목적으로 한다. 데이터 분석의 핵심 도구로 머신러닝이 사용되기 때문에 겹치는 부분도 있지만, 머신러닝은 머신러닝만의 고유한 영역이 있고, 데이터 분석은 데이터 분석만의 영역이 있다.
데이터 분석은 누가 수행할까? 오늘날 마케팅이든, 전략이든, 생산이든 어떤 영역에 있는 사람들도 데이터 분석을 할 줄 알아야 하며, 이것이 경쟁 우위의 원천이 된다. 저자는 현업에 있는 사람들의 데이터 분석 입문을 돕기 위해 이 책을 저술하였다. 이 책은 독자들이 Altair사의 No Code 데이터 분석 소프트웨어인 RapidMiner AI Studio를 사용하여 코드를 작성하지 않고 데이터 분석을 수행하는 방법을 학습하도록 한다.
이 책의 목적은 데이터 분석을 배우는 것이다. 데이터 분석을 배우면 머신러닝과 혼동하듯이, RapidMiner AI Studio를 배우는 것이 데이터 분석이라고 혼동할 수 있다. 이 사실을 명심하고 학습하길 바란다. 데이터 분석의 전체적인 맥락을 놓치지 않도록 하기 위해 이 책은 CRISP-DM 방법론을 따라 학습하도록 내용을 구성하였다. 먼저 데이터 분석의 체계를 학습하고, 그 안에 있는 세부 내용을 학습하도록 하자.
이 책은 데이터 분석을 배우기 위한 교두보이다. 이 책에서 다루지 않은 많은 주제들이 있다. 다양한 시각화 기법도 있을 수 있고, 통계적 기법도 있다. 물론, 다양한 머신러닝 기법은 말할 것도 없다. 그러나 나는 데이터 분석 학습자들이 세부적인 관심으로 가기 전에 데이터 분석의 큰 틀을 익히는 데 집중했으면 한다. 큰 틀이 있으면 세부적인 다른 내용들은 큰 틀에 맞추어 넣기만 하면 된다. 이 책을 통해 데이터 분석을 잘 시작하고, 성공적인 데이터 분석가가 되길 바란다.
이 책이 나오기까지 수고해 주신 많은 분들께 감사를 드린다. 이 책의 내용을 함께 공부했던 이충권, 노미진, 한무명초 교수에게 특별히 감사한다. 책의 내용에 대한 귀중한 조언을 해 주셔서 더 나은 책이 될 수 있었다. 이 책의 내용을 읽고 도움을 주었던 석사 과정의 이소원, 메기 학생에게 감사한다. 이 책이 만들어진 과정에 꼼꼼히 교정을 해 주신 박영사 탁종민 선생께 감사드린다. 마지막으로 나를 사랑하고 후원하는 늘 희생하는 우리 가족에게 진심으로 감사한다.
저자 김양석 배상