어떤 오픈소스 LLM을 사용하면 좋을까?

728x90

지난 글에서 GPT-5의 비용으로 인한 논란을 소개해 드렸습니다.
이렇듯 비용 문제는 어디서나 중요한 이슈가 되고 있는데...

과연 어떤 LLM 서비스를 사용하는 것이 가장 비용 효율적인, 즉 가성비가 뛰어난지가 우리의 관심거리가 되겠죠.

이런 시점에서 딱 적절하게 주요 LLM들을 비교분석한 기사가 나왔네요.
AI전문 미디어인 Ai Times에서 "4대 프론티어 모델 순위를 뽑았더니...메타, 오픈AI·앤트로픽 성능에 근접"이라는 기사가 올라왔길래 살펴보았습니다.

https://www.aitimes.com/news/articleView.html?idxno=163221

'4대 프론티어 모델' 순위를 뽑았더니...메타, 오픈AI·앤트로픽 성능에 근접 - AI타임스

4대 인공지능(AI) 기업인 오픈AI와 앤트로픽, 구글, 메타의 첨단 대형언어모델(LLM)에 대한 부문별 벤치마크 테스트 점수를 종합한 순위가 나왔다. 새로운 벤치마크를 실시한 것이 아니라 각 사가

www.aitimes.com

원본기사는 아래 링크에서 보실 수 있습니다.

https://www.marktechpost.com/2024/09/08/top-large-language-models-llms-a-comprehensive-ranking-of-ai-giants-across-13-metrics-including-multitask-reasoning-coding-math-latency-zero-shot-and-few-shot-learning-and-many-more/

Top Large Language Models (LLMs): A Comprehensive Ranking of AI Giants Across 13 Metrics Including Multitask Reasoning, Coding,

The competition to develop the most advanced Large Language Models (LLMs) has seen major advancements, with the four AI giants, OpenAI, Meta, Anthropic, and Google DeepMind, at the forefront. These LLMs are reshaping industries and significantly impacting

www.marktechpost.com

미국의 AI 전문지인 마크테크포스트에서 대표적인 LLM 모델을 다양한 지표를 기준으로 서로 비교하여 분석해 놓은 기사입니다.

비교항목은 다음과 같습니다.

항목의 수가 무려 13개나 되네요.

1. 멀티태스크 추론(MMLU) 부문
- 과학, 인문학, 수학을 포함한 다양한 주제에서 질문에 답하는 AI 모델의 능력을 포괄적으로 평가

- 다양한 실제 과제를 처리할 수 있는 다재다능함을 입증하는 항목이라고 할 수 있음

2. 코딩(HumanEval) 부문
- 여러 프로그래밍 작업에서 모델이 정확한 코드를 생성하는 능력을 평가

3. 수학(MATH) 부문
- 복잡한 수학 문제를 해결하고 수치 개념을 이해하는 능력을 평가

4. 지연 시간(Latency) 부문
- 챗봇이나 가상 비서와 같은 실시간 애플리케이션에서 모델이 얼마나 빠르게 응답을 생성하는지를 평가함

- TTFT(Time to First Token) 벤치마크: AI 모델이 프롬프트를 받은 후 첫번째 토큰을 출력하기까지의 속도를 측정

5. 비용(Cost) 부문
- 주로 입력 토큰 100만개당 비용과 출력 토큰 100만개당 비용을 기준으로 비용 효율성을 계산함

- LLM을 운영에 통합하려는 기업들에게 핵심 요소가 됨

6. 컨텍스트 창(Context Window) 부문
- 응답을 생성할 때 한번에 처리할 수 있는 입력 텍스트의 양을 평가

- 법률 문서 분석, 학술 연구, 고객 서비스 등 장문 생성 애플리케이션에서 큰 컨텍스트 창은 필수

7. 사실 정확성(Factual Accuracy) 부문
- AI 모델이 환각(Hallucination)을 유발하지 않고 사실적 정보를 기억하는 정확도를 평가

- 모델의 신뢰성과 직결됨

8. 정렬(Alignment) 부문
- 모델의 출력 결과가 사전 정의된 윤리적 지침과 얼마나 잘 일치하는지를 평가

- 모델의 안전성과 직결됨

9. 적대적 프롬프트에 대한 안전성 부문
- 유해하거나 편향된, 비논리적인 출력을 생성하도록 설계된 공격적인 프롬프트에 대한 저항 능력을 평가

10. 다국어 부문
- 비영어권 언어에서 일관성 있고 정확하며 문맥을 이해한 응답을 생성하는 능력을 평가

11. 지식 보유 및 장문 생성 부문
- 연구 논문 작성, 법률 문서 작성, 그리고 연속적인 컨텍스트를 유지하며 긴 대화를 수행하는 능력을 평가

12. 제로 및 퓨샷 학습 부문
- 유사한 작업에 대한 명시적인 학습 없이 응답을 생성하는 제로샷, 제한된 작업 특정 예제만으로 수행하는 퓨샷 작업 능력을 평가

13. 편견 및 독성 출력 부문
- LLM의 윤리적 고려 사항, 특히 편향을 최소화하고 독성 출력을 피하는 능력을 평가

위와 같은 항목을 기준으로 LLM에서 유명한 4개 기업의 모델, 즉 OpenAI의 GPT, 메타의 Llama, 앤트로픽의 Claude, 구글의 Gemini를 비교한 결과입니다.

벤치마크	1위	2위	3위
멀티태스크 추론 (MMLU)	GPT-4o	Llama 3.1 405B	Claude 3.5 Sonnet
코딩 (HumanEval)	Claude 3.5 Sonnet	GPT-4o	Llama 3.1 405B
수학 (MATH)	GPT-4o	Llama 3.1 405B	GPT-4-Turbo
지연 시간 (Latency)	Llama 3.1 8B	GPT-3.5-Turbo	Llama 3.1 70B
비용 (Cost)	Llama 3.1 8B	Gemini 1.5 Flash	GPT-4o-Mini
컨텍스트 창 (Context Window)	Gemini 1.5 Flash	Claude 3 /3.5	GPT-4-Turbo / GPT-4o
사실 정확성 (Factual Accuracy)	Claude 3.5 Sonnet	GPT-4o	Llama 3.1 405B
정렬 (Alignment)	Claude 3.5 Sonnet	GPT-4o	Llama 3.1 405B
적대적 프롬프트에 대한 안전성	Claude 3.5 Sonnet	GPT-4o	Llama 3.1 405B
다국어 부문	GPT-4o	Claude 3.5 Sonnet	Llama 3.1 405B
지식 보유 및 장문 생성	Claude 3.5 Sonnet	GPT-4o	Gemini 1.5 Flash
제로 및 퓨샷 학습	GPT-4o	Claude 3.5 Sonnet	Llama 3.1 405B
편견 및 독성 출력	Claude 3.5 Sonnet	GPT-4o	Llama 3.1 405B

4대 모델 벤치마크 순위 (자료 출처: AiTimes & Marktechpost)

그런데 4대 모델이라고는 하지만 애초에 모델의 크기와 버전별로 성능이 다른 것을 감안하면 Llama 3종, GPT 4종, Claude 2종, Gemini 1종, 이렇게 해서 10개의 모델이 비교 대상이 되었네요.

각 항목들이 모두 중요하지만 기업의 입장에서 최고로 중요한 요소인 비용을 기준으로 한다면 메타의 Llama 3.1 8B 모델이 가장 좋은 선택이겠군요.

성능이 좋으면 좋겠지만 일단은 우리가 쓸 수 있는 비용의 범위에 있어야 도입을 하건 말건 결정하겠죠.

그리고 기사를 잘 읽어보면 순위는 저렇게 나왔지만 각 모델이 큰 차이를 보이지는 않는다는 설명을 볼 수 있습니다.

비용의 경우라면 (입력 토큰 100만개당 비용, 출력 토큰 100만개당 비용)으로 비교할 때,

1위: Llama ($0.05, $0.08),

2위: Gemini 1.5 Flash ($0.07, $0.3)

3위: GPT-4o-Mini ($0.15, $0.6)

의 결과를 보여주고 있습니다.

Llama의 경우는 오픈소스 모델이니까 우리의 로컬 시스템에 설치하여 사용한다면 무료로 사용할 수 있겠군요.

물론 전기요금 등은 우리가 부담해야 하니까 완전한 무료는 아니겠죠.

어쨋든... 오픈소스 모델에 상업적인 사용이 가능한 라이센스 위에서 최고의 비용효율성과 작은 크기를 가진 Llama 모델이니까 많은 sLLM 들이 Llama를 기반으로 만들어지고 있는 것 같습니다.

며칠 전 역대 최고의 성능을 기록했다고 주장하는 기사가 올라왔던 인공지능(AI) 글쓰기로 유명한 미국 스타트업 하이퍼라이트의 모델인 Reflection 70B(오픈소스)도 Llama 3.1-70B Instruct 모델을 미세조정하여 만든 모델이라고 하죠.

https://www.aitimes.com/news/articleView.html?idxno=163161

하이퍼라이트 "세계 최강 오픈 소스 모델 '리플렉션' 출시" - AI타임스

인공지능(AI) 글쓰기로 유명한 미국 스타트업 하이퍼라이트가 역대 최고 성능의 오픈 소스 대형언어모델(LLM)을 공개했다고 주장했다. 추론 과정에서 발생한 오류를 식별하고 수정할 수 있는 기

www.aitimes.com

여기에서 생각난 것이 LG AI 연구원에서 발표한 엑사원 3.0 (EXAONE, EXpert AI for EveryONE) 모델입니다.

엑사원 모델이 산업용 AI를 목표로 개발하기 시작했기 때문에 실제 개발 시점보다 대중에 알려진 시점이 많이 늦었다고 LG AI 연구원의 배경훈 원장님께 들었었는데 올해 8월에 엑사원 3.0 7.8B 버전을 오픈소스로 공개했다고 합니다.

https://www.aitimes.com/news/articleView.html?idxno=162327

LG, 7.8B 오픈 소스 모델 ‘엑사원 3.0’ 공개…”빅테크 동급 모델 성능 능가” - AI타임스

LG가 새로운 모델 ‘엑사원(EXAONE) 3.0’을 오픈 소스로 공개했다.매개변수 78억개의 소형언어모델(sLM)로, 비슷한 크기의 \'라마 3.1 8B\'나 \'큐원 2 7B\', \'미스트랄 7B\' 등 글로벌 오픈 소스 모델의 성

www.aitimes.com

깃허브에 방문하면 엑사원 모델을 사용하기 위한 샘플코드를 제공하고 있네요.

https://github.com/LG-AI-EXAONE/EXAONE-3.0?tab=License-1-ov-file

GitHub - LG-AI-EXAONE/EXAONE-3.0: Official repository for EXAONE built by LG AI Research

Official repository for EXAONE built by LG AI Research - LG-AI-EXAONE/EXAONE-3.0

github.com

엑사원 3.0 모델은 한국어와 영어의 이중언어로 학습되었으며, 이름에서도 알 수 있듯이 전문가를 위한 모델로서 학습되었다는 장점이 있는 모델이죠.

그러나 MIT 라이센스와 같은 완전 자유를 보장하는 라이센스가 아니라 연구생태계 확산, 연구 목적을 위한 EXAONE AI Model License Agreement 1.1-NC 라이센스를 적용하고 있기때문에 상업적으로 사용하려면 별도의 허가를 얻어야 한다는 단점이 있습니다.

이처럼 다양한 성능과 목적을 가진 LLM들이 오픈소스로 계속해서 발표되고 있으니 이 중에서 우리의 목적과 상황에 따라 가장 적절한 모델을 선택하여 활용할 수 있게 된 것은 매우 좋은 현상이라고 생각되네요. ^^

다양한 모델의 선택이 가능하다.
(그림: MS Designer Image Creator로 직접 그림)

728x90

저작자표시 비영리 변경금지

'AI & IT 이야기' 카테고리의 다른 글

OpenAI, '스트로베리' 정식 출시, ChatGPT에 'OpenAI o1' 모델 추가 (20)	2024.09.13
LLM의 한계 확인을 위해 자주 사용되는 "3.9와 3.11은 어느 것이 더 큰가?" (14)	2024.09.11
이젠 돈 없으면 LLM은 사용도 못하는 시대가 오고 있나.. (15)	2024.09.09
중소 제조 기업의 AI 도입에 대하여... (16)	2024.09.09
직장에서 AI를 사용하는 5가지 유형... 이라... (4)	2024.09.06

어떤 오픈소스 LLM을 사용하면 좋을까?

'AI & IT 이야기' 카테고리의 다른 글

티스토리툴바