초거대 AI 및 ChatGPT 계열의 가장 큰 문제는 데이터 윤리일까?

작년 11월 30일 이후, 초거대 AI와 ChatGPT는 AI 및 IT 업계를 중심으로 지속적인 이슈를 불러오고 있습니다.

초반에는 예상을 뛰어넘는 능력과 성과에 놀라움을 금치못하는 분위기였다면 상황이 진정되기 시작하면서부터는 초거대 AI와 ChatGPT를 이용한 활용성의 검증과 서로 뒤처지지 않으려는 빅테크 기업 중심의 경쟁이 중심이 되었죠.

그런데 지금은 점점 해당 기술을 공개하고 시스템, 서비스를 제공하는 OpenAI를 중심으로 한 관련 기업/기관들의 데이터 윤리가 이슈가 되고 있는 모양새입니다.

OpenAI’s hunger for data is coming back to bite it | MIT Technology Review

OpenAI’s hunger for data is coming back to bite it

The company’s AI services may be breaking data protection laws, and there is no resolution in sight.

www.technologyreview.com

해당 기사의 내용을 요약해보면...

OpenAI의 AI 서비스가 데이터 보호법을 위반하고 있으며 이에 대한 해결책이 없다는 내용이라고 할 수 있습니다.

특히 많은 전문가들은 MIT Technology Review에서 OpenAI가 규칙을 준수하는 것이 거의 불가능하다고 밝혔는데, 그 이유는 AI 모델의 훈련에 사용되는 데이터의 수집 방식이 인터넷으로부터 콘텐츠를 끌어오는 방식이기 때문입니다.

특히 ChatGPT를 위한 학습에서 수많은 데이터를 사용하고 있는데 OpenAI는 최신 모델인 GPT-4의 데이터셋의 크기를 포함하여 많은 정보를 공개하지 않고 있습니다.

이러한 이유로 각지에서 데이터 보호법에 대한 의문과 관련 이슈가 발생하기 시작하였고, 이탈리아를 포함한 EU 국가들을 중심으로 데이터 보호법 위반에 대한 (GDPR을 근거로 하는)조사가 진행되기 시작했습니다.

현재 제시되고 있는 문제들은 대체로 다음과 같다고 할 수 있습니다.

OpenAI는 GPT-4가 왜 ChatGPT보다 뛰어난 결과를 보이는지 이유를 밝히지 않고 있음
OpenAI는 GPT-4가 어떤 기술과 어느 정도의 규모의 데이터를 사용하고 있는지 밝히지 않고 있음
OpenAI는 수많은 데이터 소유자들에게 데이터의 스크랩, 활용에 대한 동의를 얻었다는 것을 증명해야 하지만 아직까지 증명하지 못하고 있음
OpenAI는 GPT-4, ChatGPT를 이용하여 많은 이익을 얻고 있으나 데이터 이용에 대한 동의를 얻지 못했다면 그 이익이 정당하게 데이터를 사용하여 얻은 사회적으로 공정한 이익임을 증명해야 하지만 아직까지 증명하지 못하고 있음

특히 이러한 문제는 유럽쪽의 국가들이 심각하게 제기하고 있는 상황인데.. 일부에서는 유럽이 미국 등의 타국에 비하여 IT기술이 뒤처진 것에 대한 자존심 손상 때문에 저항하는 것이 아니냐..라는 의견도 있긴 합니다.

그러나 이러한 데이터 윤리에 대한 내용은 결국에는 해결되긴 할 지라도 상황이 심각해지기 전에 한 번은 짚어보고 가야할 내용이라는 것에는 저도 동의하는 편입니다.

초거대 AI가 이슈가 되었던 2018년(GPT), 국내의 경우는 2020년 네이버의 HyperClova가 시작점이 되었는데.. 그 시기부터 이런 문제의 가능성은 제기되어 왔습니다.

그 당시에는 주로 AI 기업을 중심으로 확산되었기 때문에 그 문제를 지적하는 목소리는 크지 않았던 것 같습니다.

그러나 2020년 12월 22일, 스캐터랩에서 개발하고 서비스를 시작했던 AI 챗봇 '이루다'가 데이터 윤리 문제로 결국 며칠만에(2021년 1월 12일) 서비스를 중단하게 된 사건을 비롯하여 작지만 꾸준히 문제는 제기되어 왔습니다.

(이루다의 경우, 어떤 데이터 윤리 문제가 있었는지는 다음 글에 잘 정리되어 있네요.)

[AI 윤리와 법] (2) 이루다 사태와 개인.. : 네이버블로그 (naver.com)

[AI 윤리와 법] (2) 이루다 사태와 개인정보

이루다 사태(?) 2020. 12. 22. 이루다(스캐터랩에서 제작한 페이스북 메신저 기반 채팅 인공지능)는 정식 ...

blog.naver.com

그런데 이번 ChatGPT의 경우는 전세계적으로 단기간에 폭발적인 확산이 이루어지면서 이러한 데이터 윤리에 관련된 문제 역시 예상 이상으로 커지게 되었다고 봅니다.

현재 진행되고 있는 데이터 보호법, 데이터 윤리에 관련된 여러 법적인 이슈들이 완료되기까지는 수 년이 걸릴 것이라고 예상되고 있으며, 일론 머스크 테슬라 최고경영자(CEO) 등 AI 전문가들이 포함된 미국 비영리단체 '삶의 미래 연구소'(FLI, Future of Life Institute)에서는 6개월간 최첨단 AI 기술의 개발을 중단하자.. 라는 주장을 내세우는 등.. 지금 AI 관련 업계는 상당한 혼란과 위기감, 그리고 동시에 큰 기대와 희망이 혼재하여 상당히 복잡한 상황이라고 생각됩니다.

과연 지금의 상황이 어떻게 풀려나갈지는 쉽게 예측하기 어렵지만 현재의 AI 모델들이 거대한 규모의 데이터를 필수로 하고 있는 만큼 데이터 윤리에 대한 정책이 어떻게 흘러가는지는 꾸준히 관심을 기울여야 할 것 같습니다.

728x90

저작자표시 비영리 변경금지 (새창열림)

'AI & IT 이야기' 카테고리의 다른 글

챗GPT의 환각문제를 개선하기 위한 OpenAI의 새로운 방법? (0)	2023.06.05
연합 학습(Federated Learning, FL) (0)	2023.04.28
인공지능 개발을 6개월 간 중단하자...라... 이게 될까??? (0)	2023.04.02
AI의 발전에 따라 위협받게 될 직업/산업군은 어떻게 구분할 수 있을까? (0)	2023.03.03
현재의 AI와 딥러닝 모델에 대하여.. (0)	2022.09.29

초거대 AI 및 ChatGPT 계열의 가장 큰 문제는 데이터 윤리일까?

'AI & IT 이야기' 카테고리의 다른 글

티스토리툴바