이번에 데이터분석 카테고리에서 다룰 내용은 "데이터 분석의 힘 - 그 많은 숫자들은 어떻게 전략이 되는가 (이토 고이치로 저/전선영 역/ 이학배 감수, 인플루엔셜)"입니다.
AI 기술을 이해하고 구현, 활용하기 위해서는 데이터에 대한 이해와 활용이 필수입니다.
어느 정도 이상의 규모를 가진 학습, 검증 데이터와 이에 대한 분석, 활용이 뒷받침 되지 않는다면 딥러닝이건 AI이건 무용지물이 되고 말지요.
사실 AI 기반 시스템을 설계하고 활용하기 위해서는 사용할 데이터를 간단하게 분석하여 연관성이 있어 보이는 데이터들을 중심으로 학습 및 검증 데이터만 적당히 잘 설계하여도 구현한 시스템은 잘 돌아갑니다.
그 성과도 크게 나쁘지 않습니다.
특히 요즘 유행하는 이미지, 영상, 또는 음성을 인식하는 시스템은 필요한 데이터가 이미지, 음성 데이터 등으로 한정되어 있으니 아무런 문제가 없지요.
그런데 기상 데이터나 주가지수 데이터 등 시계열 데이터(시간의 흐름에 따라 변하는 데이터)를 이용한 예측 시스템과 같은 경우에도 이런 방식이 잘 맞을까요?
우리가 사용하는 데이터가 아예 처음부터 잘못된 데이터라면 어떻게 될까요?
얼핏 보기에 관련이 있어 보이는 데이터이지만 사실은 크게 관계 없는 데이터였다면 과연 그 예측 결과가 정확할까요? 또는 어떤 의미가 있을까요?
이러한 시스템에서는 잘못된 데이터와 분석 결과의 활용은 아무런 의미가 없습니다.
중요한 결정에 활용해야 하는 경우라면 더 위험한 결과가 나올 수도 있습니다.
오늘 살펴 볼 도서인 "데이터 분석의 힘: 그 많은 숫자들은 어떻게 전략이 되는가"에서는 보기에도 어려운 통계적인 이론을 설명하는 것이 아니라 다양한 예시를 기반으로 데이터 간의 인과관계를 찾는 것을 목표로 하는 데이터 분석 방법에 대하여 이야기 하고 있습니다.
먼저 목차를 살펴보겠습니다.
1. 정말 광고가 아이스크림 매출을 올렸을까? : 데이터의 상관관계는 인과관계가 아니다
2. 오바마 캠프는 어떻게 후원금을 '더' 모았을까? : 최선의 데이터 분석법, RCT
3. 70세가 되자 병원을 많이 가기 시작했다. : 급격한 변화의 '경계선'을 찾는 RD디자인
4. 규제 때문에 자동차가 무거워졌다고? : 계단식 변화가 있는 곳엔 집군분석
5. 세금을 내리면 이민자가 늘어날까? : 시간의 흐름에 따른 패널 데이터 분석
6. 구글은 41가지의 파란색을 고민했다. : 데이터는 어떻게 전략이 되는가?
7. 그럼에도 데이터 분석은 불완전하다. : 불량 분석을 피하기 위한 방법
목차에서 이야기하듯이 이 책에서는 데이터의 인과관계를 기반으로 하는 분석에서 어떤 분석 방법을 사용하여 데이터를 분석하고 불량 분석을 피하기 위해 어떤 조치를 취할 수 있는가를 설명하고 있습니다. 다음 글부터 1~2장, 3~5장, 6~7장으로 구분하여 3번에 걸쳐 전체 도서의 내용을 다루고자 합니다.
다음 글은 1~2장을 살펴보도록 하겠습니다. (생각보다 3~5장의 글이 길어져서 3~5장은 다시 나누기로 결정했습니다)
많은 관심을 부탁드립니다.
'AI 관련 기술들 > Data 분석' 카테고리의 다른 글
데이터 분석의 힘: 4장 (0) | 2019.12.16 |
---|---|
데이터 분석의 힘: 3장 (0) | 2019.12.10 |
데이터 분석의 힘: 1~2장 (0) | 2019.12.06 |
데이터 과학을 위한 통계 : 탐색적 데이터 분석(1) (0) | 2019.11.14 |
데이터 과학을 위한 통계: 시작하면서 (0) | 2019.11.14 |