새로 개설한 "실습해보기" 카테고리와 연계하여 진행할 첫번째 도서는 한빛미디어에서 출판한 "데이터 과학을 위한 통계 (피터 브루스, 앤드루 브루스 저 / 이준용 옮김"로 결정하였습니다.
처음부터 순수 통계학을 다루기에는 너무 많은 거리감이 있을 것 같아서 가능하면 실습과 함께 진행할 수 있는, 컴퓨터를 이용한 접근을 선택하는 것이 좋을 듯 하네요.
"데이터 과학을 위한 통계"는 R로 실습을 진행하고 있습니다만 이번 시리즈에서는 R과 함께 파이썬을 병행할 계획입니다.
동일한 내용을 R과 파이썬으로 동시에 구현해보면 각 환경 사이의 차이점에 대해서도 익힐 수 있을 것으로 생각합니다.
전체적인 진행은 책의 목차를 따르겠지만 세세한 부분까지 다루지는 않습니다.
간략하게 요약, 정리하고 관련된 정보들을 함께 다룰 예정입니다.
물론 내용이 명확해서 따로 관련 정보를 볼 필요가 없는 경우는 그냥 내용의 정리만 진행합니다.
그럼 먼저 목차를 살펴보도록 하겠습니다.
Chapter 1. 탐색적 데이터 분석
1.1 정형화된 데이터의 요소 / 1.2 데이터 테이블 / 1.3 위치 추정 / 1.4 변이 추정 / 1.5 데이터 분포 탐색하기 /
1.6 이진 데이터와 범주 데이터 탐색하기 / 1.7 상관관계 / 1.8 두 개 이상의 변수 탐색하기
Chapter 2. 데이터와 표본분포
2.1 랜덤표본추출과 표본편향 / 2.2 선택편향 / 2.3 통계학에서의 표본분포 / 2.4 부트스트랩 / 2.5 신뢰구간 / 2.6 정규분포 /
2.7 긴 꼬리 분포 / 2.8 스튜던트의 t 분포 / 2.9 이항분포 / 2.10 푸아송 분포와 그 외 관련 분포들
Chapter 3. 통계적 실험과 유의성 검정
3.1 A/B 검정 / 3.2 가설검정 / 3.3 재표본추출 / 3.4 통계적 유의성과 p 값 / 3.5 t 검정 / 3.6 다중검정 / 3.7 자유도 /
3.8 분산분석 / 3.9 카이제곱검정 / 3.10 멀티암드 밴딧 알고리즘 / 3.11 검정력과 표본크기
Chapter 4. 회귀와 예측
4.1 단순선형회귀 / 4.2 다중선형회귀 / 4.3 회귀를 이용한 예측 / 4.4 회귀에서의 요인변수 / 4.5 회귀방정식 해석 /
4.6 가정 검정: 회귀 진단 / 4.7 다항회귀와 스플라인 회귀
Chapter 5. 분류
5.1 나이브 베이즈 / 5.2 판별분석 / 5.3 로지스틱 회귀 / 5.4 분류 모델 평가하기 / 5.5 불균형 데이터 다루기
Chapter 6. 통계적 머신러닝
6.1 K 최근접 이웃 / 6.2 트리 모델 / 6.3 배깅과 랜덤 포레스트 / 6.4 부스팅
Chapter 7. 비지도 학습
7.1 주성분분석 / 7.2 K 평균 클러스터링 / 7.3 계층적 클러스터링 / 7.4 모델 기반 클러스터링 / 7.5 스케일링과 범주형 변수
챕터 3까지는 기본적인 통계 관련 내용을 다루고 있으며 챕터 4부터는 머신러닝, 딥러닝을 공부하면서도 조금씩 들어본 내용들이 나오고 있습니다.
분량은 1개의 챕터를 대략 1~2개의 포스트로 다룰 예정입니다만 책의 내용에 따라서 조절해 가면서 진행할 것입니다.
챕터 1의 경우는 거의 개념 설명이 중심이 될 것 같네요.
실습과 관련된 부분은 내용을 통합, 정리하여 "실습해보기" 카테고리에서 다루며 분량이 너무 짧은 경우는 그냥 포스트 안에서 설명하고 넘어가도록 하겠습니다.
그럼 시작하도록 하겠습니다.
'AI 관련 기술들 > Data 분석' 카테고리의 다른 글
데이터 분석의 힘: 4장 (0) | 2019.12.16 |
---|---|
데이터 분석의 힘: 3장 (0) | 2019.12.10 |
데이터 분석의 힘: 1~2장 (0) | 2019.12.06 |
데이터 분석의 힘: 시작하면서 (0) | 2019.12.06 |
데이터 과학을 위한 통계 : 탐색적 데이터 분석(1) (0) | 2019.11.14 |