이번 글에서는 1장부터 2장까지의 내용을 다루겠습니다.
그럼 각 장의 내용을 정리해 보겠습니다.
1장 의 주제는 "데이터의 상관관계는 인과관계가 아니다" 입니다.
데이터 분석의 목적은 대부분 어떤 요인(X)과 결과(Y) 사이의 인과관계를 확인하는 것입니다.
그러나 많은 데이터 분석 사례에서는 인과관계가 아닌 상관관계를 인과관계로 혼동하고 있습니다.
실제로 상관관계는 어떤 요인들이 서로 영향을 미치는 관계에 있음을 말하고 있을 뿐, 하나의 결과를 위한 원인이 되지는 않습니다.
인과관계란 X → Y, 즉 X는 Y의 원인이 된다는 의미인데 상관관계는 X → Y 뿐만아니라 Y → X를 포함할 수 있습니다.
이 경우는 원인과 결과가 뒤바뀌는 큰 오류를 일으키게 되지요.
그리고 X와 Y 이외의 또 다른 요인인 V(잠복변수라고 합니다)를 매개로 하여 연관성이 있는 경우도 상관관계는 성립하지만 인과관계와는 전혀 관계가 없는 데이터가 될 수 있습니다.
또한 영상인식과 같은 요즘 유행하는 많은 딥러닝 사례에서는 결과가 적절하지 않을 때, 데이터를 늘리면 문제점을 충분히 보완할 수 있는 경우가 많지만 인과관계는 데이터의 수를 늘리는 것만으로는 파악되지 않습니다.
인과관계의 문제는 데이터의 양이 아니라 편향(bias: 분석으로 얻은 추정치의 치우침, 잘못된 데이터 분석에서 도출된 오차)의 문제이기 때문이죠.
이처럼 인과관계와 상관관계는 서로 완전히 다른 개념의 관계인데 많은 데이터 분석 사례에서는 인과관계와 상관관계를 서로 혼동하여 사용하고 있어서 단순한 상관관계에 있는 데이터를 우리가 분석하는 결과의 원인으로 분석하는 오류가 발생하고 있습니다.
제대로 된 데이터의 분석을 위해서는 인과관계를 정확하게 판단하는 것이 중요합니다.
두 번째 장부터는 이러한 인과관계를 파악하기 위한 방법들과 각 방법을 적용한 사례를 소개합니다.
2장에서는 최선의 데이터 분석법이라고 볼 수 있는 RCT(Randomized Controlled Trial, 무작위 비교 시행)에 대하여 소개하고 있습니다.
인과관계를 밝히기 위해서는 원인과 결과를 확인할 수 있는 비교 데이터 집단이 필요합니다.
이 때, 기존의 데이터집단에서 데이터의 변형을 시도하기 위한 집단을 개입집단(Treatment Group)이라고 부르며 기존의 데이터를 유지하는 집단, 즉 비교의 기준이 될 집단을 비교집단(Control Group)이라고 부릅니다.
개입집단을 만들면서 일어난 인과관계에 의한 효과를 개입효과라고 부릅니다.
이처럼 데이터 집단에서 개입집단과 비교집단을 만드는 것은 인과관계를 밝히기 위해서는 필수적인 작업입니다.
데이터에 변화가 주어졌을 때, 그로 인하여 변형되는 데이터를 파악하고 그 연관성을 증명하여 각 데이터 변화에 대한 원인을 분석해 내는 것입니다.
RCT는 원래 의료기술이나 약제의 효능을 연구할 때 편향성을 줄이기 위한 목적으로 수행하는 임상시험의 한 유형을 말하지만 그 분석효과와 장점으로 인하여 기타 분야에서의 데이터 분석에서도 활발하게 사용되고 있습니다.
임상시험에 참여하는 대상자들을 중재군(관심 의료기술 시술 집단이나 약제 투여 집단)과 대조군(위약 투여 집단 혹은 다른 치료를 받는 집단)에 무작위로 할당하여 결과를 비교하는 방식인데 여기서 말하는 중재군이란 앞에서 설명한 개입집단에 해당하며 대조군은 비교집단에 해당합니다.
RCT를 수행할 때 지켜야 할 원칙은 아래와 같습니다.
1. 인과관계를 밝히기 위해 적절하게 집단을 만들어야 하며, 반드시 비교 집단을 만들어야 한다. 2. 집단은 반드시 무작위로 나눈다. 3. 각 집단에 충분한 표본수를 배정한다. |
각 집단을 무작위로 나누는 이유는 데이터 분석에서 발생하는 편향성을 제거하기 위해서 입니다.
또한 무작위로 배정한 데이터가 투명성을 가지고 어느 한 쪽에 편향되지 않으며 그 결과가 충분한 신뢰성을 가지기 위해서는 일정 규모 이상의 데이터가 필요합니다.
충분한 데이터와 무작위성을 가진 데이터가 신뢰성을 가진다는 것은 통계학적으로 증명된 사실이지요.
이와 같은 원칙으로 개입집단과 비교집단을 만들고 데이터의 비교, 분석을 수행하면 다양한 구성 요인들 중에서 특정 요인이 변형될 때 그 영향을 받는 결과값을 확인할 수 있으며, 이 결과 데이터를 통해 데이터 집단의 인과관계를 확인할 수 있습니다.
그러나 실제로 어떤 데이터 집단에 개입을 하여 데이터 변형을 유도했을때, 개입이 일어나지 않은 데이터는 세상에 존재하지 않습니다.
다만 매우 유사한 조건에서 유사한 결과를 보여주던 비교집단의 데이터가 개입집단의 데이터에 개입이 일어나지 않았을 때의 데이터와 유사하다는 가정을 바탕으로 결과를 추정하는 것입니다.
따라서 100% 완전한 비교는 일어나지 않으며, 다시 말해서 완벽한 인과관계를 확인하는 것은 거의 불가능합니다.
단지 매우 높은 가능성을 가진 결과를 추정하는 것에 만족하는 것입니다.
그 외의 특징으로 RCT는 인과관계를 과학적으로 보여주며 분석 기법과 결과가 투명하다는 장점을 가진 반면, 비용과 시간, 노력이 많이 들고 각 관련 기관의 협력이 필요하며 기타 다양한 한계점을 가지는 단점을 가지고 있습니다.
다음 글에서는 3~5장의 내용을 다루도록 하겠습니다.
'AI 관련 기술들 > Data 분석' 카테고리의 다른 글
데이터 분석의 힘: 4장 (0) | 2019.12.16 |
---|---|
데이터 분석의 힘: 3장 (0) | 2019.12.10 |
데이터 분석의 힘: 시작하면서 (0) | 2019.12.06 |
데이터 과학을 위한 통계 : 탐색적 데이터 분석(1) (0) | 2019.11.14 |
데이터 과학을 위한 통계: 시작하면서 (0) | 2019.11.14 |