본문 바로가기

AI & IT 이야기

데이터 기근 시대의 해답은 과연 합성 데이터일까?

728x90

인공지능 시스템은 기본적으로 거대한 데이터를 필요로 합니다.

모델을 완성시키기 위해서는 엄청난 데이터를 기반으로 수없이 많은 학습을 진행해야 한다는 것은 잘 알려진 사실이죠.

그리고 데이터의 규모가 거대해질수록 모델의 성능이 향상된다는 것도 거의 사실에 가까운 것으로 확인되었습니다.

그 때문에 나온 것이 초거대 AI였고, 이런 초거대 AI를 기반으로 개발되어 출시된 것이 ChatGPT와 같은 LLM 들입니다.

 

수년 전까지만 하더라도 데이터 과잉의 시대이다.. 이 거대한, 넘쳐나는 데이터때문에 AI가 성공할 수 있었다.. 이런 이야기가 기본적인 사실로 깔려있었을만큼 현재는 수많은 데이터가 생성되는 시대입니다.

그러나 최근들어 데이터 기근시대로 접어들고 있다는 주장이 나오고 있죠.

AI가 학습하기 위해 필요한 데이터가 점점 고갈되어 가고 있다는 말입니다.

AI 모델이 이미 너무나 많은 데이터를 학습으로 소비하였으며.. 더욱 고도화되기 위해서는 양질의 데이터가 더 필요한데.. 현재의 데이터는 양은 많더라도 중복되거나 부정확하거나... 또는 저작권 등의 문제로 사용할 수 없거나...

기타 여러 가지 문제로 인해 AI가 학습하기 위한 데이터는 점점 줄어들고 있다는 것입니다.

 

그래서 이런 데이터 기근 시대의 해법으로 AI가 생성, 합성한 데이터로 다시 학습을 진행하는 방법을 주장하는 이들이 늘고 있습니다.

유명한 테슬라의 CEO인 일론 머스크를 포함해서 말이죠.

 

https://www.aitimes.kr/news/articleView.html?idxno=33538

 

인공지능 시대, 데이터 기근 시대로 … 일론 머스크, "합성 데이터가 해법이다" - 인공지능신문

인공지능(AI) 기술의 급속한 발전과 함께 AI 모델 훈련에 필요한 데이터 수요 또한 기하급수적으로 증가하고 있다. 하지만 현실에서는 AI 모델 훈련에 활용 가능한 고품질 데이터가 부족한 상황이

www.aitimes.kr

 

그런데 과연 합성 데이터가 해법이 될 수 있을까요?

저는 여기서 의문을 가지지 않을 수 없었습니다.

 

기초적인 수준의 AI 모델에서는 합성 데이터가 모델의 학습에 도움이 되는 것은 확실합니다.

예전에 진행했던 교육 과정 중에서 수강생들이 진행한 최종 프로젝트에서 한 수강생이 GAN 모델을 이용하여 과일의 영상을 대량으로 생성하고, 그 영상을 이용해서 모델을 학습시킨 후 그 모델로 실제 과일의 영상을 분류하는 모델을 성공적으로 만들어서 시연을 했었습니다.

그때 생성된 영상은 뛰어난 수준의 사실적인 영상이 아니라 해당 과일의 특징은 잘 살리고 있지만 사람이 봤을때는 이게 과일인가? 라고 생각할 정도로 현실성이 없었습니다.

그래도 그 데이터로 학습한 모델은 실제 과일 영상을 제대로 분류해 냈었죠.

 

그런데 모델이 점점 복잡해지면 상황은 달라집니다.

완벽하지 않은 모델로 생성한 불완전한 데이터로 학습한 AI 모델은 불완전한 결과를 학습하게 되는 것입니다.

그리고 그 오차는 학습이 진행될수록 누적되어서 점점 큰 오차를 만들게 되겠죠.

결국 잘못된 결과를 만들어내는 모델이 될 가능성이 큽니다.

 

실제로 생물계에서도 그런 일들이 발생합니다.

유전공학에서 실험할 때, 유전적으로 가까운 근친 교배가 진행되면 몇 세대 이내에 심각한 유전질환이나 유전적 결함이 나타나게 되죠.

우리의 유전자도 완벽하지 않기 때문에 많은 오류와 문제점을 가지고 있는데 근친 교배의 경우 동일한 오류를 가지고 있는 유전자가 만나게 될 가능성이 점점 높아지는 것입니다.

그래서 자연계에서도 동물들은 본능적으로 근친교배를 기피하도록 진화해 온 것입니다.

 

AI 모델의 학습도 마찬가지입니다.

엄선된 데이터로 학습시킨 AI 모델도 할루시네이션(환각) 현상과 같은 문제가 흔히 발생하고 있는데 불완전한, 서로 비슷한 문제를 가지고 있는 합성된 데이터로 모델을 학습하면 오차의 누적은 점점 커지게 되겠죠.

 

그래서 합성 데이터가 과연 AI 모델의 데이터 기근 문제를 해결할 수 있을까? 라는 질문에 의문을 가지게 되는 것입니다.

물론 새로운 기술을 개발하여 그러한 문제를 해결한다면 해답이 될 수도 있겠지만..

과연 그것이 얼마나 빠른 시일 내에 가능할지.. 현재로서는 뭐라고 말하기 어려운 상황이라고 생각되네요.

 

데이터의 흐름은 빙글빙글(그림출처: MS Image Creator로 직접 그림)

728x90
반응형