본문 바로가기

AI 관련 기술들/Data 분석

데이터 과학을 위한 통계: 시작하면서

새로 개설한 "실습해보기" 카테고리와 연계하여 진행할 첫번째 도서는 한빛미디어에서 출판한 "데이터 과학을 위한 통계 (피터 브루스, 앤드루 브루스 저 / 이준용 옮김"로 결정하였습니다.

 

 

처음부터 순수 통계학을 다루기에는 너무 많은 거리감이 있을 것 같아서 가능하면 실습과 함께 진행할 수 있는, 컴퓨터를 이용한 접근을 선택하는 것이 좋을 듯 하네요.

 

"데이터 과학을 위한 통계"는 R로 실습을 진행하고 있습니다만 이번 시리즈에서는 R과 함께 파이썬을 병행할 계획입니다.

동일한 내용을 R과 파이썬으로 동시에 구현해보면 각 환경 사이의 차이점에 대해서도 익힐 수 있을 것으로 생각합니다.

 

전체적인 진행은 책의 목차를 따르겠지만 세세한 부분까지 다루지는 않습니다.

간략하게 요약, 정리하고 관련된 정보들을 함께 다룰 예정입니다.

물론 내용이 명확해서 따로 관련 정보를 볼 필요가 없는 경우는 그냥 내용의 정리만 진행합니다.

 

그럼 먼저 목차를 살펴보도록 하겠습니다.

 

Chapter 1. 탐색적 데이터 분석

        1.1 정형화된 데이터의 요소  /  1.2 데이터 테이블  /  1.3 위치 추정 /  1.4 변이 추정 /  1.5 데이터 분포 탐색하기 /  

        1.6 이진 데이터와 범주 데이터 탐색하기 /  1.7 상관관계 /  1.8 두 개 이상의 변수 탐색하기

 

Chapter 2. 데이터와 표본분포

        2.1 랜덤표본추출과 표본편향 /  2.2 선택편향 /  2.3 통계학에서의 표본분포 /  2.4 부트스트랩 /  2.5 신뢰구간 /  2.6 정규분포 / 

        2.7 긴 꼬리 분포 /  2.8 스튜던트의 t 분포  /  2.9 이항분포  /  2.10 푸아송 분포와 그 외 관련 분포들

 

Chapter 3. 통계적 실험과 유의성 검정

        3.1 A/B 검정  /  3.2 가설검정  /  3.3 재표본추출  /  3.4 통계적 유의성과 p 값  /  3.5 t 검정  /  3.6 다중검정  /  3.7 자유도  /

        3.8 분산분석  /  3.9 카이제곱검정  /  3.10 멀티암드 밴딧 알고리즘  /  3.11 검정력과 표본크기

 

Chapter 4. 회귀와 예측

        4.1 단순선형회귀  /  4.2 다중선형회귀  /  4.3 회귀를 이용한 예측  /  4.4 회귀에서의 요인변수  /  4.5 회귀방정식 해석  /

        4.6 가정 검정: 회귀 진단  /  4.7 다항회귀와 스플라인 회귀

 

Chapter 5. 분류

        5.1 나이브 베이즈  /  5.2 판별분석  /  5.3 로지스틱 회귀  /  5.4 분류 모델 평가하기  /  5.5 불균형 데이터 다루기

 

Chapter 6. 통계적 머신러닝

        6.1 K 최근접 이웃  /  6.2 트리 모델  /  6.3 배깅과 랜덤 포레스트  /  6.4 부스팅

 

Chapter 7. 비지도 학습

        7.1 주성분분석  /  7.2 K 평균 클러스터링  /  7.3 계층적 클러스터링  /  7.4 모델 기반 클러스터링  /  7.5 스케일링과 범주형 변수

 

챕터 3까지는 기본적인 통계 관련 내용을 다루고 있으며 챕터 4부터는 머신러닝, 딥러닝을 공부하면서도 조금씩 들어본 내용들이 나오고 있습니다.

분량은 1개의 챕터를 대략 1~2개의 포스트로 다룰 예정입니다만 책의 내용에 따라서 조절해 가면서 진행할 것입니다.

챕터 1의 경우는 거의 개념 설명이 중심이 될 것 같네요.

실습과 관련된 부분은 내용을 통합, 정리하여 "실습해보기" 카테고리에서 다루며 분량이 너무 짧은 경우는 그냥 포스트 안에서 설명하고 넘어가도록 하겠습니다.

 

그럼 시작하도록 하겠습니다.

 

 

 

 

728x90
반응형