지난 글에 이어서 3장에서는 급격한 변화의 경계선을 찾는 RD디자인에 대하여 이야기합니다.
2장에서는 인과관계를 밝히는데 가장 좋은 데이터 분석법으로 평가되는 RCT에 대하여 알아보았습니다.
그러나 100% 완벽한 분석이 아니라고 말씀드렸었죠.
사실 데이터를 분석하려고 하다 보면 RCT가 적용 불가능한 경우가 많이 있습니다.
이러한 경우 "실험에 가까운 실제 상황을 이용한다"는 발상에서 시작된 자연실험 기법을 많이 사용하고 있는데, 그 중에서 대표적인 기법의 하나가 RD디자인 기법입니다.
여기서 말하는 자연실험이란 실험과 유사한 상황을 가진 실제 현상을 이용하여 인과관계를 분석하는 방법을 말합니다.
2장에서 설명했던 RCT는 데이터 분석자가 능동적으로 실험을 설계하고 개입을 통해 데이터를 수집, 분석하는 인위적인 방법인데 반해 RD디자인은 이러한 인위적인 개입이 아니라 자연적으로 발생한 현상에서 유사한 경우를 선택하여 분석한다는 점에서 차이가 있습니다.
그렇기 때문에 RCT는 데이터 분석자가 분석에 가장 적합한 설계를 할 수 있다는 장점을 가지지만 RD디자인은 RCT의 형태로 이루어지지 않는 정책이나 비즈니스 상의 개입을 분석할 수 있다는 장점을 가지죠.
RCT와 RD디자인은 어느 것이 옳고 그르다는 관계가 아니라 상황에 따른 상호 보완적인 관계라고 보시면 됩니다.
RD디자인의 핵심은 불연속(discontinuity)과 경계선(borderline)입니다.
다음 그림을 보시죠.
위의 그림은 일본에서 1984년부터 2008년까지 병원을 이용한 외래 환자의 수를 월, 연령별로 조사한 그래프입니다.
세로축에서 외래환자 수의 로그값을 이용한 이유는 로그값을 사용하면 두 점 사이에 몇 퍼센트의 차이가 있는지 그래프에서 쉽게 파악할 수 있기 때문입니다.
그래프를 보면 70세를 기준으로 좌우의 그래프가 완전히 구분되어 있습니다.
조사 대상이 된 1984년부터 2008년을 기준으로 일본에서는 의료 정책 상 70세 미만의 환자는 의료비에서 본인 부담금이 30%이며 70세부터 본인 부담금이 10%로 인하됩니다.
그렇다면 70세를 기준으로 본인 부담금 비율이 변경되는 의료정책이 저런 결과의 원인이 된 것일까요?
혹시 다른 이유는 없을까요?
위의 경우는 특정 연구를 위하여 개입집단과 비교집단을 나누어 실험을 한 경우가 아니기 때문에 조사 대상은 무작위성을 만족하고 있고, 특정한 개입이 이루어지지 않았기 때문에 외부적인 요인은 없다고 볼 수 있습니다.
또한 70세를 기준으로 사람들이 일제히 질병에 걸리거나 건강상태가 나빠진다고 보는 것도 무리입니다.
70세를 기준으로 갑자기 연금액이 증가되어서 건강관리에 신경을 쓰게 되었다고 보기도 어렵죠.
그렇다면 이런 결과의 원인은 의료비 본인 부담금의 비율조정이 될 확률이 매우 높아집니다.
이처럼 RD디자인은 위의 그래프에서 볼 수 있는 불연속적인 변화가 발생한 경계선을 이용하여 인과관계를 분석하는 방법입니다.
이와 같이 RD디자인을 이용하여 인과관계를 분석, 증명하기 위해서는 다음과 같은 가정이 필요합니다.
- 원인으로 추정되는 요인을 X라고 하고 그 결과를 Y라고 했을 때, 만약 경계선에서 X가 변화하지 않는다면 Y도
불연속적인 변화가 발생하지 않는다.
이 가정을 만족한다면 X는 Y라는 결과가 발생한 원인, 즉 X와 Y는 인과관계에 있음을 알 수 있는 것입니다.
그렇다면 이러한 가정이 제대로 성립하는지 검증할 수 있을까요?
사실상 이 검증은 불가능합니다.
RD디자인은 자연실험, 즉 인위적인 개입이 불가능한 데이터이므로 "경계선에서 X가 변화하지 않는다면"에 대한 데이터는 존재하지 않습니다.
단지 가상적, 잠재적으로 우리의 예측 속에 존재하는 데이터일 뿐이죠.
그럼 어떻게 증명해야 할까요?
데이터 분석자는 "아마 이 가정이 성립할 것이다"라는 주장을 펼치고 그 주장이 성립될 수 있는 다른 데이터를 모아서 타당성을 입증하는 방식으로 가정을 설득하는 수 밖에 없습니다.
이것이 바로 비교 데이터를 통해 직접 증명할 수 있는 RCT와 RD디자인의 차이점입니다.
데이터 분석자는 조사된 데이터를 이용한 그래프의 경계선에서 불연속적인 변화가 일어나지 않는다는 것을 증명할 수 있는 다른 데이터를 모아야 합니다.
위의 그래프를 본다면 70세를 경계선으로 외래환자 수의 불연속적인 변화를 확인할 수 있습니다.
그렇다면 70세를 경계선으로 하는 다른 데이터도 불연속일까요?
앞에서 이야기한 것처럼 70세를 기준으로 모든 사람이 급격하게 건강상태가 바뀔까요? 아니겠죠.
그럼 70세를 기준으로 모든 사람이 갑자기 부자가 되어서 병원을 자주 찾을까요? 역시 아닐겁니다.
부자가 되는 것을 이야기했으니 관련된 데이터를 생각해 보죠.
70세를 기준으로 취업률은 어떨까요? 근로시간은? 수입의 변화는 어떨까요?
이처럼 70세를 기준으로 취업률, 근로시간, 수입의 변화 등과 같은 금전적인 변화가 급격하게 변화하지 않고 연속적으로 완만하게 변화한다는 것을 증명할 수 있는 데이터를 제시하는 것입니다.
금전적인 변화 외에도 결과 Y에 영향이 있을 것 같은 다양한 데이터를 조사하여 제시할 수 있겠죠.
이렇게 경계선에서 연속적인 완만한 변화가 이루어지는 데이터를 제시함으로써 우리가 가정한 요인 X (여기서는 의료비 본인부담금 비율)가 변하지 않으면 Y도 불연속적으로 변화하지 않는다는 것을 보여주는 것이 RD디자인에서의 가정을 입증하는 방법입니다.
그러나 이 방법은 한 가지 위험부담이 있습니다.
바로 가정이 성립하지 않는 데이터가 존재할 때, RD디자인은 사용할 수 없습니다.
예를 들면 위의 그래프와 관련하여 만약 "70세가 되는 모든 사람에게 국가가 거액의 연금을 지급한다"라는 정책이 존재한다면 의료비 본인부담금 비율이 변하지 않더라도 그래프와 같이 불연속적인 변화가 있을 수 있습니다.
그렇다면 70세를 경계선으로 외래환자가 늘어난 것은 의료비의 본인부담금 비율 변화가 원인인지 거액의 연금이 원인인지 알 수 없게 됩니다.
이런 경우에는 RD디자인이 아닌 RCT와 같은 다른 분석 방법을 사용해야 합니다.
지금까지 살펴본 RD디자인의 원칙, 장점과 단점을 정리해 보면 다음과 같습니다.
RD디자인의 원칙 1. 경계선을 기준으로 한 가지 요인(X)만 비연속적으로 변화하는 상황을 찾아낸다. 2. 경계선 부근에서 X 이외의 요인이 비연속적으로 변화하지 않는지 검증한다. RD디자인의 장점 1. 가정이 성립하면 경계선 부근에서 RCT와 유사한 상황을 이용할 수 있다. 2. 주요 결과를 그래프로 나타냄으로써 이해하기 쉬운 투명한 분석이 가능하다. 3. 다양한 상황과 장소에 걸쳐 경계선이 존재하므로 RCT를 대체하는 효과적인 분석 기법이다. RD디자인의 약점: 1. RD디자인의 가정이 성립할 것이라는 근거를 제시할 수는 있지만 실제로 성립한다는 것을 입증할 수는 없다. 이는 RCT와 비교했을 때 큰 약점이다. 2. RCT는 실험 참가자 전체에 대한 인과관계를 보여주는 반면 RD디자인은 경계선 부근의 데이터에 대한 인과관계 만 보여준다. 출처: 데이터분석의 힘 (이토 고이치로 저 / 전선영 역, 인플루엔셜) 3장 Summary |
이번 글에서는 3장 RD디자인에 대하여 살펴보았습니다.
원래 3~5장의 3가지 주제는 서로 유사성 또는 연관성이 있어서 함께 다루는 것이 좋다고 생각했는데 생각보다 글이 길어졌네요.
4장, 5장은 다음 글에서 다루도록 하겠습니다.
'AI 관련 기술들 > Data 분석' 카테고리의 다른 글
R과 파이썬을 사용한 통계 계산 시작하기 (1) (0) | 2019.12.19 |
---|---|
데이터 분석의 힘: 4장 (0) | 2019.12.16 |
데이터 분석의 힘: 1~2장 (0) | 2019.12.06 |
데이터 분석의 힘: 시작하면서 (0) | 2019.12.06 |
데이터 과학을 위한 통계 : 탐색적 데이터 분석(1) (0) | 2019.11.14 |