데이터 분석의 힘: 6~7장

이번 글에서는 "데이터 분석의 힘"에 대한 마지막 부분인 6~7장에 대하여 살펴보겠습니다.

6~7장은 지금까지 다루었던 RCT, RD디자인, 집군분석, 패널 데이터 분석 등의 인과관계를 밝히기 위한 데이터 분석 방법을 어떻게 실무에 잘 활용할 수 있는지에 대한 원칙, 조언 등을 예시와 함께 이야기하고 있습니다.

이러한 다양한 원칙과 조언들의 바탕에는 "근거 기반 정책"이 있습니다.
"근거 기반 정책"이란 모든 정책을 수립하기 위해서는 반드시 그 근거가 되는 분석된 데이터가 기반이 되어야 한다는 것인데, 구글을 포함한 실리콘밸리의 다양한 기업과 기관에서 활용되면서 점차 퍼져나가기 시작했습니다.
이러한 움직임은 세계 정치의 중심이라고 할 수 있는 워싱턴DC까지 번져나갔으며, 오바마 전 대통령은 "근거 기반 정책 수립(Evidence-based Policymaking)"을 주장하며 정책 입안 방식에 도입하고자 했습니다.

이 과정에서 설립된 근거기반정책수립위원회는 다음의 두 가지를 중요한 목표로 삼았습니다.
① RCT(무작위 비교 시행) 같은 엄밀한 과학적 기법으로 정책이 평가되고 정책 효과의 인과관계가 데이터 분석으로

해명되는 구조를 만든다.
② 정부가 보유한 행정 데이터를 연구자가 이용하고 분석할 수 있는 체제를 정비한다.

특히 ①의 내용이 이 책에서 다루는 내용인데, 위원회는 "단순히 숫자나 데이터를 보여주는 것이 증거는 아니다"라는 생각을 중요시 했고, 이 말은 즉 "X라는 정책이 Y라는 결과에 어떤 영향을 미쳤는지 인과관계를 과학적으로 보여주는 데이터 분석이야 말로 정책형성에 필요한 것이다"라는 것을 의미합니다.
그리고 ②의 내용은 쉽게 말해서 "분석자가 데이터에 접근할 수 있어야 분석이 가능하다."라는 것입니다.

이런 내용을 기반으로 책에서는 두 가지의 "데이터 분석의 성공요건"을 제시합니다.
    ① 데이터 분석 전문가와 협력 관계를 구축한다.
    ② 데이터에 접근할 수 있는 길을 연다.

내용은 전혀 어려울 것이 없으므로 말 그대로 이해하면 됩니다.

먼저 첫 번째 "데이터 분석 전문가와 협력 관계를 구축한다"를 보죠.
요즘 딥러닝을 중심으로 한 AI가 주목을 받으면서 얼마 전까지 주목받던 데이터 분석가, 데이터 과학자 등에 대한 일반인들의 관심은 약간 줄어들었습니다.
그러나 해당 분야의 전문가들 사이에서는 오히려 데이터 분석, 데이터 과학의 중요성이 더 강조되고 있죠.
그런데 이런 내용들이 실제 통계학과 같은 기존 학문 분야가 아니라 AI를 위시한 IT 분야를 중심으로 떠오르다 보니 최근에 출판되는 다양한 전문서적들도 IT 분야를 기반으로 데이터 분석을 다루고 있습니다.
이런 추세는 결국 많은 사람들이 데이터 분석이라고 하면 컴퓨터에 저장된 데이터를 다양한 소프트웨어로 다루거나 프로그래밍을 통해서 간단히 분석, 관리하는, 즉 좁은 의미의 기술로 착각하도록 만들고 있죠.
그러나 데이터 분석은 훨씬 광범위한 분야입니다.
어떤 문제의 답을 얻기 위해서는 어떤 RCT를 설계해야 하는지, RCT가 불가능할 때에는 어떤 자연실험 기법을 적용해야 하는지, 어떤 데이터를 수집해야 하는지..
이와 같은 "컴퓨터에 데이터가 저장되기 이전의 단계까지 모두 포함한 것이 데이터 분석"이고 따라서 이런 모든 기술과, 또 그 기술에 관련된 경험이 중요한 것입니다.
그러나 어느 한 쪽만으로는 제대로 된 분석도, 제대로 된 실무 적용도 어렵습니다.
데이터 분석 전문가는 전문 지식을 제공할 수는 있지만 현장의 목소리나 문제를 체감하지 못합니다.
데이터 분석 전문가 혼자서는 어떤 문제가 중요한지도 제대로 알 수 없고, 또 데이터 분석 전문가가 중요하다고 생각한 것이 현장에서는 그다지 중요하지 않을 수도 있죠.
따라서 제대로 된 데이터 분석을 활용하기 위해서는 데이터 분석 전문가의 기술과 경험, 그리고 현장에서 분석 결과를 이용하는 사람들의 지식과 경험이 함께 어우러져야 합니다.

두 번째 성공 요건인 "데이터에 접근할 수 있는 길을 연다"를 보겠습니다.
이 요건은 말 그대로 입니다.
데이터에 접근할 수 있는 길을 최대한 열어두라는 뜻입니다.
이 책에서는 데이터에 대한 접근을 허용하고 정보를 공개하는 방법으로 다음의 세 가지를 이야기 합니다.
    - 모든 사람에게 데이터를 공개하고 특별한 절차 없이 이용할 수 있게 한다.
    - 일정 절차를 거쳐 데이터에 접근할 수 있게 한다.
    - 접근이 허용된 전문가에게만 데이터를 공개한다.
세 가지 방법 중에서 목적에 맞는 방법을 선택하면 됩니다.
또는 안전하게 특정 대상에게만 데이터를 공개한 후, 점차적으로 공개 범위를 확대해 나갈 수도 있습니다.

마지막 7장에서는 불량분석을 피하기 위해서 고려해야 할 내용들을 이야기 하고 있습니다.
7장의 내용은 간단히 정리하는 선에서 마무리 하도록 하겠습니다.

① 데이터 자체에 문제가 있다면 모든 것이 무용지물이다.
데이터에 문제가 있으면 어떠한 분석 기법을 사용하더라도 신뢰성 있는 결과가 나올 수 없겠죠.
적절한 데이터를 만드는 작업은 데이터 분석 이전에 전제조건으로서 반드시 필요한 것입니다.

데이터에 문제가 있는 경우를 정리해 보면 다음과 같습니다.
- 데이터 측정에 문제가 있고, 수치도 바르게 기재되어 있지 않다.
- 관측치에 대한 대량의 결측치가 있다.
- 데이터를 모든 세대가 아닌 편준됭 표본에서만 확보했다.

② 분석 결과의 외적 타당성 문제
RCT나 자연 실험을 이용하면 X가 Y에 미친 영향, 즉 인과관계를 과학적으로 분석할 수 있지만 결국 우리가 얻는

것은 분석에 사용된 표본에 적용되는 인과관계입니다.
따라서 분속 표본 이외의 다른 대상에게도 적용되는지에 대하여 신중하게 고민해 볼 필요가 있습니다.
RCT를 통하여 밝혀낸 인과관계는 과학적으로 도출되었다고 볼 수 있으며, 분석 결과의 내적 타당성(Internal

Validity)이 확보되었다고 표현합니다.
그리고 이렇게 얻은 분석 결과를 다른 대상에 적용할 수 있느냐에 대한 문제를 외적 타당성(External Validity)의

문제라고 합니다.
다음의 표는 외적 타당성과 내적 타당성을 비교하여 정리한 것입니다.

분석방법	외적 타당성의 범위: 개입효과(인과관계)를 분석할 수 있는 대상	내적 타당성의 강도
RCT (강제 참가형)	실험 대상자	매우 높다
RCT (자발적 탐가형)	실험 대상자 중 자발적 참가자	매우 높다
RD디자인	경계선 부근의 대상	높다
집군분석	집적한 대상	높다
패널 데이터 분석	개입집단 전체	약간 떨어진다

내적 타당성과 외적 타당성을 모두 만족하려고 하면 어떤 분석방법이 우수한지 결론 내리기가 어렵습니다.
상황에 따라 각 분석 방법의 강점과 약점을 고려해서 가장 적절하다고 판단된 방법을 적용하는 것이 좋습니다.

③ 출판 편향과 협력관계 편향이라는 문제
다양한 환경에서 데이터를 분석해보면 성공적으로 인과관계를 도출할 수도 있지만, 분석한 데이터 사이에는

인과관계가 전혀 없는 경우도 많습니다.
원칙적으로는 이러한 결과도 유용한 분석결과이자 과학적인 발견입니다.
그러나 많은 연구자, 분석가들은 이런 결과는 논문으로 발표하기 어렵다고 생각합니다.
이런 생각은 원하는 의도와 기대에 어긋나는 결과를 발표하는 것을 꺼리게 만들죠.
이와 같은 풍조는 논문을 쓰는 쪽이나 논문을 평가하는 쪽 모두에서 아직까지도 존재하는 문제입니다.
논문을 쓰는 쪽이나 평가하는 쪽에서 논문으로 출판되기 어렵다고 판단한 연구결과는 아예 세상에 나오지도

못하고 사라질 가능성이 높아집니다.
이런 문제가 출판 편향의 문제입니다.

또한 출판편향과는 별개로 협력관계 편향이라는 문제가 있는데, 데이터 분석 전문가가 자신들의 작업에 협력해

줄 만한 파트너 만을 골라서 분석을 실시하는 문제를 말합니다.
이처럼 편의에 따라 협력 대상을 선택하여 데이터를 분석하게 되면 외적 타당성의 관점에서 편향된 분석결과가

나오게 됩니다.
파트너를 선정하는 과정 자체가 연구자의 의도나 분석의 실현 가능성에 영향을 받게 됨으로써 분석의 외적 타당성

자체가 흔들리게 되는 거죠.

④ 개입에 파급효과가 존재할 때의 주의점
여태까지 다루었던 RCT, RD디자인, 집군분석, 패널 데이터 분석 기술에서 필요한 다양한 가정을 살펴본 것을 기억

하시죠?
그런데 앞에서 살펴본 가정 외에 모든 경에에 필요한 추가적인 가정이 있습니다.
바로 "개입집단에 대한 개입이 비교집단에는 영향을 주지 않는다." 라는 가정입니다.
어느 하나의 집단에 실험을 위한 개입을 했을때, 그 개입의 내용이 드러나지 않은 경로를 통하여 비교집단에도

영향을 미치게 되는 것을 개입의 파급효과(Spillover Effect)라고 하는데, 이런 경우 비교집단은 순수한 의미의 비교

집단이 될 수 없습니다.
책에서는 개입의 파급효과의 예로 학생들에게 노트북을 지급한 경우에 대한 성적 향상여부를 들었습니다.
학급인원의 절반에게는 노트북을 지급하고, 나머지 절반에게는 지급하지 않았을 때 개입집단이 성적이 향상되는

가를 실험한 것인데, 이 때 만약 노트북을 지급받은 학생들이 학교 수업이 끝난 후에 노트북을 지급받지 않은 친구

들과 함께 노트북을 사용하였을 경우 올바른 비교 분석이 되지 않는다는 것입니다.

이런 경우 실험 설계자는 개입집단을 어느 수준으로 설정할 것인지, 즉 서로 영향을 줄 수 있는 가능성이 거의

없는 대상을 범위로 설정하는 방법을 사용할 수 있습니다.
또 다른 방법으로는 아예 처음부터 개입효과 외에 개입의 파급효과도 분석할 수 있도록 실험을 설계함으로써 원하

는 결과를 얻을 수도 있습니다.

⑤ 일반 균형적 효과가 존재할 때의 주의점
RCT와 같은 실험들은 예산 문제 등으로 소규모로 실시될 때가 많은데, 소규모로 이루어진 실험의 결과가 대규모

로 이루어지는 실제 정책 개입과 동일한 결과를 낳을지는 신중한 검토가 필요합니다.
소규모 실험의 경우에는 분석 대상의 수가 적기 때문에 일어날 수 있는 간섭 요소의 수도 적을 수 밖에 없습니다.
그러나 대규모 분석 대상의 경우에는 분석 대상이 가지는 특성과 성향도 훨씬 많아지게 되므로 소규모 실험에

비해 더욱 다양한 간섭요소, 변수가 존재할 가능성이 높습니다.
통상의 소규모 RCT에서는 개입의 영향이 실험에 내재된 변수에만 영향을 미치는 것으로 가정하고 실험을 진행

하게 되지만, 실제로 정책을 수립하고 광범위한 대상에게 개입하게 되면 예상하지 못했던 변수들도 우리가 알지

못하는 많은 영향을 받게 됩니다.
이런 현상을 경제학에서는 "일반 균형적 효과가 존재한다"라고 말합니다.
소규모 RCT나 자연실험으로는 일반 균형적인 효과까지 조사하기 어렵기 때문에 소규모 RCT나 자연실험으로 얻은

결과를 대규모 정책의 참고자료로 삼고 싶다면 일반 균형적인 효과가 발생할지에 대하여 주의깊게 살펴보아야

합니다.

여기까지 해서 이번 학습 도서로 선정한 "데이터 분석의 힘 : 그 많은 숫자들은 어떻게 전략이 되는가"의 내용을 살펴보았습니다.
상세한 내용을 알고 싶은 분은 도서를 직접 읽어보시면 좋겠네요.

다음 학습 도서가 결정될 때까지는 "기반지식/통계"에서 다루는 "데이터 과학을 위한 통계"를 실습해보기 카테고리와 병행하여 계속 진행하도록 하겠습니다.
지금까지 읽어주셔서 감사합니다.

728x90

저작자표시 비영리 변경금지 (새창열림)

'AI 기반 이론' 카테고리의 다른 글

시계열 데이터와 순환신경망 (0)	2020.04.03
시계열 데이터와 딥러닝 (0)	2020.03.13
데이터 분석의 힘: 5장 (2)	2019.12.26
R과 파이썬을 사용한 통계 계산 시작하기 (1) (0)	2019.12.19
데이터 분석의 힘: 4장 (2)	2019.12.16

데이터 분석의 힘: 6~7장

'AI 기반 이론' 카테고리의 다른 글

티스토리툴바