이번 글에서는 탐색적 데이터 분석에 대해서 알아보겠습니다.
데이터 과학의 시작은 무엇일까요?
일단 데이터가 있어야 뭐라도 시작할 수 있겠죠.
당연히 데이터 과학의 시작은 자료의 탐색입니다.
통계학에서는 탐색적 데이터 분석(EDA, Exploratory Data Analysis)라는 분야에서 다루고 있습니다.
기존의 통계학은 적은 표본을 가지고 더 큰 모집단에 대한 결론을 도출하는, 즉 추론을 주된 목적으로 하고 있습니다.
그러나 탐색적 데이터 분석은 통계와 공학, 컴퓨터 과학을 접목시켜 연구를 수행하는 것을 목적으로 하고 있으며, 위와 같은 통계적 추론이라는 것은 단지 하나의 구성요소로 취급하고 있습니다.
데이터는 아주 다양한 형태로 존재하고 있습니다.
이러한 데이터를 분석하고 활용하기 위해서는 정형화 된 데이터로 변환할 필요가 있습니다.
정형화 된 데이터는 연속형, 이산형, 범주형으로 크게 나눌 수 있습니다.
연속형 데이터란 주어진 범위 안에서라면 어떤 값이든 허용되는 데이터를 말하며, 일반적으로 실수형 데이터가 대부분을 차지합니다.
이산형 데이터란 횟수와 같이 정수 값으로 구성된 데이터를 말하는데, 정수형이라는 말은 데이터가 연속적이지 않고 각각 떨어져 있다는 말이겠죠.
범주형 데이터란 목록, 열거된 값 등 선택 가능한 범주 안의 데이터로만 구성된 것을 말하며, 특수한 형태로 2개의 값만 가지는 이진 데이터와 값들 사이에 순서가 정해져 있는 순서형 데이터를 포함합니다.
그런데 우리는 왜 데이터를 분류하여 사용할까요?
그 이유는 우리가 데이터를 분석하고 예측을 위한 모델링을 하기 위해서는 시각화, 해석, 통계를 위한 모델 결정 등의 작업을 해야 하는데 그러한 작업을 위해서는 데이터의 종류가 중요하기 때문입니다.
특히 소프트웨어를 개발할 경우에는 변수의 종류에 따라서 해당 변수에 관련된 계산의 수행 방법이나 정책을 결정하는 경우가 많기 때문에 더욱 중요하다고 볼 수 있습니다.
그렇다면 데이터 분석에서 가장 많이 사용되는 대표적인 형태는 무엇일까요?
바로 테이블 데이터(Rectanglar Data)입니다.
통계, 머신러닝 등의 분야에서는 데이터 프레임(Data Frame)이라고 주로 부르고 있습니다.
테이블 데이터는 어떤 값을 나타내는 행과 속성, 변수를 나타내는 열로 이루어진 2차원 행렬의 형태를 가지고 있습니다.
따라서 우리는 수집되는 데이터를 이런 행렬의 형태로 변환해서 사용하게 됩니다.
앞으로 우리가 사용할 R에서는 data.frame 이라는 객체를 제공하고 있으며, 파이썬에서는 Pandas라는 라이브러리에서 제공하는 DataFrame 이라는 객체를 사용합니다.
우리가 데이터베이스를 사용할 때, SQL의 성능 향상을 위하여 인덱스를 사용하는데, R과 파이썬에서 제공하는 데이터 프레임에서도 마찬가지로 인덱스 기능을 제공하고 있으며, 인덱스를 활용하여 효율성을 높일 수 있습니다.
가장 많이 사용하는 데이터의 형태는 테이블 데이터이지만 테이블 형식이 아닌 데이터 구조 또한 사용하고 있습니다.
시계열 데이터의 경우 동일한 변수 안에 연속적인 측정값을 가지는데, 측정 시점의 시간과 측정값으로 이루어져 있으며 이는 통계적 예측 기법을 위해 사용되는 데이터입니다.
특히 시계열 데이터는 요즘 산업 및 사회 전반에 퍼지고 있는 사물인터넷(IoT)에서 생산되는 데이터의 중요한 요소가 되고 있습니다.
그 외에도 지도 제작 및 위치 정보의 분석에 사용되는 공간 데이터, 다양한 관계성을 표현하기 위하여 사용되는 그래프 데이터 등이 있습니다.
지금까지 데이터의 형태와 분류에 대하여 살펴보았습니다.
다음 글에서는 기초적인 통계 개념에 대하여 살펴보고, 관련된 실습을 다루도록 하겠습니다.
'AI 기반 기술' 카테고리의 다른 글
우리의 눈과 뇌에서 일어나는 시각정보 처리과정 (0) | 2019.11.29 |
---|---|
CNN 모델의 기초 (0) | 2019.11.29 |
데이터 과학을 위한 통계: 시작하면서 (0) | 2019.11.14 |
활성화 함수의 개념과 필요성 (0) | 2019.10.31 |
AI와 데이터과학을 공부하려면 어떤 지식들이 필요할까? (0) | 2019.09.04 |