수 년 전, 빅데이터가 이슈가 되면서 떠오르기 시작한 분야가 데이터 분석, 데이터 과학 분야입니다.
빅데이터라고 하는 거대한 데이터를 분석하고 그 데이터 안에서 무엇인가 좋은 패턴을 찾고자 하는 과정에서 데이터 분석 전문가, 데이터 과학자와 같은 직업이 뜨게 되고 그러다보니 데이터 분석과 데이터 과학이라는 말이 퍼지게 되었죠.
이 시기에는 데이터 분석 전문가, 데이터 과학자와 같은 전문가를 찾기 힘들다보니 그 전문분야가 조금 다르다고 할 수 있는 수학과, 통계학과 등을 전공한 사람들이 데이터 분석 및 데이터 과학 관련 분야로 대거 채용되는 경우가
많았습니다.
이런 이유로 데이터 분석과 데이터 과학은 그 구분이 애매해졌습니다.
게다가 최근 이슈가 되고 있는 AI에서 데이터의 중요성이 강조되고 순수한 AI 전문가를 찾기가 힘들다보니 데이터 분석 전문가, 데이터 과학자를 칭하는 인력들이 자연스레 AI 진영으로 스며들게 되었습니다.
결국 수학, 통계학 등의 분야와 데이터 분석, 데이터 과학, 그리고 AI 분야가 마구 뒤섞여버리게 되었습니다.
그러나 이러한 각 분야는 서로 연관성이 크기 때문에 저렇게 섞이더라도 큰 문제가 되지는 않습니다.
그렇다면 과연 데이터 분석은 무엇이고 데이터 과학은 무엇일까요?
먼저 데이터란 무엇일까요?
옥스퍼드 대사전에는 '추론과 추정의 근거를 이루는 사실'을 데이터라고 설명하고 있습니다.
즉 가장 단순하게 생각한다면 객관적 사실을 다양한 형태(수치, 문자 등)로 표현하고 있는 것이라고 볼 수 있겠습니다.
그리고 이러한 객관적 사실을 이용해서 어떠한 현상을 추론, 추정하는 데에 사용할 수 있다는 것을 알 수 있습니다.
데이터에 대한 다른 설명으로는 '현실 세계에서 단순히 관찰하거나 측정하여 수집한 사실이나 값'이라고도 표현하고 있습니다.
그럼 데이터 분석은 무엇일까요?
위에서 말한 데이터를 우리가 사용하고자 하는 분야에 활용하려면 어떻게 해야 할까요?
먼저 우리는 저 데이터가 어떤 것을 표현하고 있는지 확인해야 합니다.
지역별 온도를 나타내는 정확한 수치로 구성된 정량 데이터인지, 설문조사의 결과나 블로그의 글과 같은 형태가 정해지지 않은 비정형의 정성 데이터인지를 알아보아야 합니다.
데이터가 무엇을 표현하고 있는지, 어떤 값으로 구성되어 있는지를 확인했으면 이 데이터들은 어떤 구조를 이루고 있는지, 그리고 우리는 어디에 이 데이터를 사용할 것인지를 확인하고 결정해야 되겠죠.
데이터를 활용할 분야가 결정되었다면 우리가 가진 수많은 데이터 중에서 필요한 데이터와 필요없는 데이터를 구분하고, 필요한 데이터를 우리가 사용할 수 있는 형태로 가공한 후 그 데이터가 무엇을 특징적으로 보여주는지를 파악해야
합니다.
이런 분석이 끝난 후, 데이터만 주루룩 늘어놓는다면 우리가 알아보기 어렵겠죠.
그렇다면 쉽게 알아볼 수 있도록 데이터의 표현 형식을 그래프, 이미지 등 다양한 형식으로 가공할 필요가 있습니다.(이 작업을 데이터 시각화라고 합니다.)
이와 같이 우리에게 주어진 데이터를 활용하기 위해서 변환, 가공하고, 분류하고, 그 특징을 확인해서 우리가 쉽게
볼 수 있도록 시각화 해 주는 모든 과정을 데이터 분석이라고 말할 수 있습니다.
데이터 분석을 위해서는 일반적으로 통계학과 같은 배경지식이 필요합니다.
최근에는 통계학 만이 아니라 머신러닝을 활용하는 경우도 많습니다.
그럼 데이터 과학은 무엇일까요?
데이터 과학과 데이터 분석은 무엇이 다른 걸까요?
데이터 과학은 "주어진 데이터로부터 의미있는 정보를 추출해 내는 학문"이라고 할 수 있습니다.
데이터 과학과 데이터 분석은 많은 부분에서 그 개념과 활용방법을 공유하고 있습니다.
많은 부분에서 서로 겹쳐진다는 것이죠.
굳이 그 차이를 따지자면 데이터 과학은 데이터 분석에서 한 단계 더 나아간 보다 포괄적이고 총체적인 접근법을 사용하고 있다는 것입니다.
데이터 분석이 주어진 데이터의 구조와 특징을 분석하고 시각화하여 사용자에게 전달한다면, 데이터 과학은 분석된 데이터의 특징 속에서 감추어진 의미있는 내용을 읽어내어 사용자에게 제시하는 것까지 확장된 것입니다.
주어진 데이터에서 어떤 의미를 찾아내기 위해서는 무엇이 필요할까요?
바로 그 데이터가 소속된 분야, 영역에 대한 지식, 즉 도메인 지식이 필요합니다.
그리고 이런 도메인 지식과 분석된 내용을 기반으로 그 숨겨진 의미를 도출하기 위해서는 프로그래밍 기술도 필요합니다.
일반적으로 그 과정에서 대용량의 데이터에 대한 연산이 필요하게 되거든요.
이처럼 다양한 분야의 지식과 기술이 요구되기 때문에 데이터 과학자란 "컴퓨터 과학자보다는 통계학을 더 잘 알고, 통계학자보다는 컴퓨터 과학을 더 잘 아는 사람"이라는 우스개 소리도 있습니다.
아래의 그림은 데이터 과학이 어떤 기술들이 겹쳐진 영역인지를 간략하게 보여주고 있습니다.

아래의 그림은 "해커 스타일로 배우는 기계학습(원서: Machine Learning for Hackers)"를 쓴 드류 콘웨이가 그린 데이터 과학을 설명한 벤다이어그램입니다.(한글번역)
위에서 제시한 그림과 일맥상통한다고 볼 수 있겠네요.

지금까지 데이터 분석과 데이터 과학에 대하여 말씀드렸습니다.
일부에서는 두 가지를 그냥 혼용하여 쓰는 곳도 있는데 많은 부분이 서로 겹치고 있어서 그런 것으로 보입니다.
정확히 구분하여 사용할 필요는 없지만 대충 이런 차이가 있다는 정도로 이해하셔도 충분할 것으로 생각됩니다.
'AI 기반 기술' 카테고리의 다른 글
다층 퍼셉트론과 Back Propagation 학습 알고리즘 (0) | 2019.09.04 |
---|---|
하나의 층을 가진 신경망, 단층 퍼셉트론 (3) | 2019.09.04 |
신경망 이해부터 시작하자. (0) | 2019.08.23 |
머신러닝이란 어떤 것인가? (0) | 2019.08.23 |
AI란 무엇이며 어떻게 시작해야 할까? (0) | 2019.08.20 |