LLM의 한계 확인을 위해 자주 사용되는 "3.9와 3.11은 어느 것이 더 큰가?"
AI & IT 이야기
2024. 9. 11.
LLM이 가지는 능력의 한계를 확인하기 위해 자주 사용되는 질문이 바로 "3.9와 3.11은 어느것이 더 큰가?"라는 질문입니다.아마 블로그를 포함해서 많은 글들이 이 주제를 다루고 있을것입니다. 수학적으로 3.9 > 3.11 이 올바른 크기 비교결과라고 할 수 있습니다만.. 그런데 LLM에게 질문을 하면 3.11이 더 크다고 설명합니다.OpenAI의 GPT-3.5-Turbo, MS의 Copilot(GPT-4기반), 네이버의 ClovaX, 구글의 Gemini, Perplexity.ai의 Perplexity에서 질문을 해 보았습니다만.. 모두 틀린 대답을 하더군요. ● GPT-3.5-Turbo의 경우● Copilot(GPT-4기반)의 경우● ClovaX의 경우 ● Gemini의 경우 ● Perplexity..