이번 4장에서는 계단식 변화를 가지는 데이터에 사용할 수 있는 또 다른 자연실헙 기법인 집군분석을 다룹니다.
계단식 변화를 가지는 데이터는 각 단계별로 집합군을 만들어 냅니다.
이 집합군 사이에서 형성되는 관계를 이용하여 인과관계를 분석해 내는 방법이 집군분석입니다.
집군분석을 사용할 수 있는 계단식 변화를 가진 데이터 중에서 가장 손쉽게 찾아볼 수 있는 것이 조세관련 데이터죠.
전기, 수도 사용량 또는 소득금액에 따라 단계별로 적용되는 누진세를 생각하시면 쉽게 이해하실 수 있을것입니다.
3장에서 살펴본 RD디자인은 경계선에서 불연속적인 큰 변화가 일어나는 특징을 가지고 있었습니다.
집군분석도 마찬가지로 경계선에서 큰 변화를 보이는 특징을 가지며 RD디자인과는 다르게 계단을 이루는 여러 경계선을 가지고 있는 모습을 보입니다.
아래의 그림 1은 "데이터 분석의 힘" 책에서 참고하고 있는 그래프를 원래 논문에서 가지고 온 것입니다.
(저자는 2018년 논문을 제시했는데 제가 찾아본 논문은 2014년도에 나온 것이군요. 그래프의 내용은 차이가 없습니다.)
그림 1에서 각 계단의 경계선에서 크게 변화하고 있는 자동차 분포를 확인할 수 있습니다.
그런데 집군분석에서 분석할 수 있는 인과관계의 모습은 RD디자인과는 큰 차이를 가지고 있습니다.
RD디자인에서는 가로축을 이루는 데이터는 변하지 않는 특징을 가지고 있는 반면, 집군분석은 가로축의 변수를 조작할 수 있습니다.
RD디자인을 설명할때 보셨던 그래프에서 가로축은 나이를 나타내고 있었죠,
기본적으로 데이터가 가지는 나이라는 특성은 모두에게 동일하게 취급되며 조작할 수 없는 조건입니다.
그러나 계단식 변화를 가지는 데이터, 전기요금에 대한 누진제를 예로 들어 생각해 보죠.
누진세를 적용하는 기준 전기 사용량은 정책에 따라 바뀔 수 있습니다.
또한 사용하는 전기의 양도 사용자의 의지에 따라 증가하거나 감소시킬 수 있으며, 사용하는 전기제품의 전력활용 효율에 따라서도 바뀔 수 있죠.
다시 말해서 RD디자인은 가로축을 조작할 수 없으니 세로축의 데이터에 관심을 가지게 되지만, 집군분석은 가로축의 데이터 변화에 관심을 가지게 되는 것입니다.
가로축의 데이터가 어떻게 변하는가에 따라서 세로축의 데이터의 변화를 살펴보겠습니다.
그림 2는 집군분석을 위한 사고방식을 그림으로 표시한 것입니다.
그림 2에서 실선은 규제가 계단식으로 바뀔 때의 실제 데이터 분포를 보여주고 있으며, 점선은 규제가 계단식으로 바뀌지 않을 때의 예상되는 데이터 분포입니다.
RD디자인에서와 마찬가지로 점선에 해당하는 데이터 분포는 실제로는 일어나지 않은 잠재적인 결과이므로 실존하는 데이터가 아닙니다.
그림 2를 보시면 규제를 적용하는 경계선에 도달하기 직전에 해당하는 무게를 가진 자동차의 수가 줄어들면서 연비 규제 경계선을 넘어감과 동시에 급증하는 모습을 보여주고 있습니다.
연비 규제 경계선 직전에서 연비에 큰 차이를 주지 않는 작은 중량 감소에 주력하기보다 차라리 조금 더 중량을 주어서 다음 규제로 넘어가는 것이 이익이라는 판단이죠.
실제로 그림 1을 보면 경계선 직후에 많은 수의 자동차가 몰려있는 것을 확인할 수 있습니다.
그림 1의 그래프와 그림 2의 사고방식을 기준으로 판단하면 자동차의 분포가 왜 저렇게 움직이는지 통계적으로 판단이 가능하겠죠.
평균적으로 어느정도로 무게를 늘렸는지도 알 수 있습니다.
이와 같은 방법으로 집군분석을 통해 자동차의 무게에 따른 연비규제(X)가 자동차의 무게(Y)에 어떤 영향을 미쳤는지에 대한 인과관계를 확인할 수 있습니다.
RD디자인과 마찬가지로 집군분석에서도 분석을 위한 기준이 되는 가정이 필요합니다.
- 만약 연비 규제치(X)가 계단식으로 바뀌지 않는다면 자동차 무게(Y)의 분포는 그림 2의 점선처럼 연속적이며
데이터가 집적하지 않는다.
이런 가정이 있어야 실제 변화가 일어난 결과와 비교가 가능하겠죠.
RD디자인에서처럼 집군분석도 해당하는 조건의 실제 데이터가 존재하지 않는다는 것이 가정이 필요한 이유입니다.
따라서 RD디자인과 마찬가지로 집군분석에서도 각 계단의 경계선 이외의 장소에서는 급격한 불연속성이 나타나지 않고, 각 경계선에서는 동일한 형태의 데이터 변화가 일어난다는 것을 증명하는 다양한 데이터를 모아서 제시해야 합니다.
지금까지 살펴본 집군분석에 대하여 다시 한 번 정리하면 아래와 같습니다.
집군분석의 원칙 1. 계단식 인센티브를 분석에 이용할 수 있는지 확인한다. 2. 분석하고 싶은 변수(X)만 계단식으로 변한다. 다른 변수는 계단의 경계점 부근에서 비연속적으로 변화하지 않는다. 3. 인센티브가 크게 바뀌는 경계선에서의 데이터 집적을 분석함으로써 개인이나 기업이 인센티브의 변화에 어떻게 반응했는지 인과관계를 검증한다. 출처: 데이터분석의 힘 (이토 고이치로 저 / 전선영 역, 인플루엔셜) 4장 Summary |
그럼 집군분석이 가지는 강점과 약점은 무엇일까요?
집군분석의 강점 1. 분석에 필요한 가정이 성립하면 경계선 부근에서 마치 RCT가 실시된 듯한 상황을 이용할 수 있다. 2. 결과를 그래프로 보여줌으로써 투명한 분석이 가능하다. 3. 계단식으로 인센티브가 변화하는 상황은 다양하다. RCT가 불가능할 경우 유용한 분석 기법이다. 집군분석의 약점: 1. 분석에 필요한 가정이 성립할 것이라는 근거를 제시할 수는 있지만 입증할 수는 없다. RCT에 비해 큰 약점이다. 2. 계단식 인센티브에 반응한 대상(집적한 대상)에 대해서만 인과관계를 분석할 수 있다. 그 때문에 실험 참가자 전체에 대한 인과관계를 분석할 수 있는 RCT에 비해 유용성이 떨어질 때도 있다. 출처: 데이터분석의 힘 (이토 고이치로 저 / 전선영 역, 인플루엔셜) 4장 Summary |
이번 글에서는 4장 집군분석에 대하여 살펴보았습니다.
다음 글에서는 5장의 패널 데이터 분석에 대하여 다루도록 하겠습니다.
'AI 관련 기술들 > Data 분석' 카테고리의 다른 글
데이터 분석의 힘: 5장 (0) | 2019.12.26 |
---|---|
R과 파이썬을 사용한 통계 계산 시작하기 (1) (0) | 2019.12.19 |
데이터 분석의 힘: 3장 (0) | 2019.12.10 |
데이터 분석의 힘: 1~2장 (0) | 2019.12.06 |
데이터 분석의 힘: 시작하면서 (0) | 2019.12.06 |