프리뷰 테스터들을 통해서 1~2주 내에 정식 발표할 것이라고 예상되었던 OpenAI의 '스트로베리'가 정식으로 출시되었습니다.
https://www.aitimes.com/news/articleView.html?idxno=163388
현지 시간으로 2024년 9월 12일, 오픈AI의 홈페이지를 통해 새로운 모델 'OpenAI o1-preview'와 'OpenAI o1-mini'가 공개되었고, 두 모델은 유료인 챗GPT 플러스와 팀, 엔터프라이즈, 에듀에서 사용할 수 있습니다.
OpenAI는 "이 시리즈는 반응하기 전에 생각하는 데 더 많은 시간을 할애하도록 설계, 복잡한 작업을 추론하고 과학, 코딩, 수학 분야의 이전 모델보다 더 어려운 문제를 해결할 수 있다"라고 설명했습니다.
여기까지가 OpenAI의 새 모델에 대한 출시 정보입니다.
새로 발표된 모델에 대하여 OpenAI에서는 "이 시리즈는 반응하기 전에 생각하는 데 더 많은 시간을 할애하도록 설계, 복잡한 작업을 추론하고 과학, 코딩, 수학 분야의 이전 모델보다 더 어려운 문제를 해결할 수 있다"라고 주장하고 있습니다만.. 그 소요 시간이 10~20초라고 하죠.
정말 좋은 결과를 반드시 낸다고 한다면 10~20초는 충분히 감안할 수 있는 시간이겠지만 지금까지의 모델과 비슷하거나 조금 더 나은 수준의 결과를 낸다고 한다면 10~20초의 대기 시간은 지나치게 길다고 생각됩니다.
특히 새로운 모델은 향상된 추론 기능을 통해 과학, 코딩, 수학 등에서 복잡한 문제를 다루는 경우 유용하게 사용될 것이라고 주장하고 있습니다만... 지난 글에서 봤던 것처럼 3.9와 3.11의 크기조차 제대로 인식하지 못한다고 한다면... 과연 저 주장을 믿을 수 있을지.. 의문이 생기기도 합니다.
물론 영문 질의에서는 제대로 된 대답을 보여줬지만 한글 질의에서는 틀린 답을 인정하지 않는 모습을 보였으니까요.
그러나 열어보지 않은 채로 기대에 못미칠 것이다.. 라고 억측하는 것도 올바른 자세는 아니라고 생각되기 때문에 앞으로의 성과를 잘 지켜볼 필요는 있다고 생각합니다.
특히 제가 늘 지켜보고있는 AI 전문가 그룹방에서도 지금 당장부터 새 모델에 대한 기대와 걱정이 오가고 있기 때문에 꽤 흥미진진하게 보고 있는 중입니다.
참고로... 저 AI 전문가 그룹방은 워낙 쟁쟁한 분들이 많아서 아주 가끔씩만 목소리를 내고 거의 대부분의 시간은 눈팅만 하고 있는 상황입니다. ㅠㅠ
거기다 대기업 연구소, 정부 소속의 대형 연구기관, 유명 대학원의 연구소(연구원) 등에서 수많은 값비싼 장비를 이용해서 직접 테스트한 결과를 이야기하고 있을 때는...
그런 장비를 사용할 수 없는 저를 포함한 많은 개인 연구자들은 지켜볼 수 밖에 없죠. ㅠㅠ
물론 우리들 대신 연구, 실험을 해서 알려주고 계시다... 라고 생각하면 지켜보기만 하는 것도 우리에겐 큰 도움이 되긴 합니다.
오늘 보니 AI 연구 및 활용분야에서 왕성하게 활동하고 계시는 한국에너지기술연구원의 이제현 박사님이 "OpenAI o1-preview"에게 3.9와 3.11 중 어느 것이 더 큰가를 질문한 결과를 그룹방에 올려주셨더군요.
최종 결과는 3.9가 크다는 정답을 내놓았지만 사고하는 과정에서는 여전히 3.11이 3.9보다 크다는 내용들이 들어있었습니다.
그런데 그 과정들 속에서 갑자기 3.9가 크다는... 논리 사고의 내용에서 갑자기 몇 단계를 붕 뛰어 넘어버린 결과를 말하고 있던데...
과연 이런 상황에서 저 모델을 OpenAI가 주장하는대로 믿어도 될까.. 하는 의구심이 더 강하게 들기 시작했습니다.
그리고 AI 분야에서 국제적인 연구자상을 다수 수상하고 역시 활발한 활동을 하고 계시는 경희대학교 이경전 교수님도 동일한 문제를 "OpenAI o1-preview"에게 물어보고 그 결과를 올리셨는데.. 이번에는 그냥 틀린 답을 주장하고 있었습니다.
아직 이런 실수를 하고 있다고 한탄하고 계시더군요...
(이미지를 블로그에 올리면 좋겠지만 두 분께 따로 허락을 받은 것이 아니라서.. 그냥 제가 보고 느낀 내용만 썼습니다.)
새 모델은 국제 수학올림피아드에서 정답률이 83%라고... 이전 모델의 13%보다 엄청나게 좋아졌다고 홍보를 잔뜩해서 많은 분들이 기대를 하고 같은 질문을 해 보고는 실망하고 계시네요.
일부 의견에서는 새 모델은 기능적인 업그레이드가 아니라 그냥 비용절감을 위한 버저닝으로 보인다는 의견도 있습니다.
충분히 타당성이 있는 의견이라고 생각됩니다.
기존의 GPT 모델이 워낙 많은 비용(전기요금 등을 포함한)을 사용해서 만성적인 적자를 유발하고 있다고 하니 OpenAI의 입장에서는 비용을 좀 줄이고 싶을 것입니다.
이런 간접적인 실험결과를 참고로 보니... 제 의구심은 더욱 커지고 있습니다.
당분간은 섣불리 판단하지 말고 잘 지켜봐야 할 것 같네요.
'AI와 IT 이야기' 카테고리의 다른 글
AI 관련 노벨상 수상자의 탄생.. 반갑지만.. 솔직하게 기뻐하지 못하는 이유 (26) | 2024.10.09 |
---|---|
AGI의 완성을 눈앞에 두고 있다고 주장하는 사람들은..? (20) | 2024.10.07 |
LLM의 한계 확인을 위해 자주 사용되는 "3.9와 3.11은 어느 것이 더 큰가?" (14) | 2024.09.11 |
어떤 오픈소스 LLM을 사용하면 좋을까? (18) | 2024.09.10 |
이젠 돈 없으면 LLM은 사용도 못하는 시대가 오고 있나.. (15) | 2024.09.09 |