데이터 기근 시대의 해답은 과연 합성 데이터일까?
AI & IT 이야기
2025. 1. 12.
인공지능 시스템은 기본적으로 거대한 데이터를 필요로 합니다.모델을 완성시키기 위해서는 엄청난 데이터를 기반으로 수없이 많은 학습을 진행해야 한다는 것은 잘 알려진 사실이죠.그리고 데이터의 규모가 거대해질수록 모델의 성능이 향상된다는 것도 거의 사실에 가까운 것으로 확인되었습니다.그 때문에 나온 것이 초거대 AI였고, 이런 초거대 AI를 기반으로 개발되어 출시된 것이 ChatGPT와 같은 LLM 들입니다. 수년 전까지만 하더라도 데이터 과잉의 시대이다.. 이 거대한, 넘쳐나는 데이터때문에 AI가 성공할 수 있었다.. 이런 이야기가 기본적인 사실로 깔려있었을만큼 현재는 수많은 데이터가 생성되는 시대입니다.그러나 최근들어 데이터 기근시대로 접어들고 있다는 주장이 나오고 있죠.AI가 학습하기 위해 필요한 데이터..