본문 바로가기

AI 관련 기술들/대형AI모델

대형 액션 모델(LAM, Large Action Model)

며칠 전인 12월 20일, LG AI연구원에서 AI 에이전트용 대형 액션 모델(LAM, Large Action Model)을 개발중이라는 기사가 올라왔습니다.

 

https://www.aitimes.com/news/articleView.html?idxno=166395

 

LG AI연구원 "AI 에이전트용 '대형액션모델' 개발 중...언어·멀티모달도 동시 개발" - AI타임스

LG AI연구원이 최근 업데이트한 ‘엑사원 3.5’에 이어 대형액션모델(LAM)을 개발 중이라고 밝혔다. 이는 최근 트렌드인 인공지능(AI) 에이전트를 겨냥한 것이다. LG AI연구원(원장 배경훈)은 20일 \'

www.aitimes.com

 

최근 호평을 받고 있는 엑사원 3.5의 후속 모델로 LAM을 포함한 LMM(대형 멀티모달 모델, Large Multimodal Model), LLM(대형 언어 모델, Large Language Model)을 동시에 개발 중이라는 기사인데, 특히 LAM은 AI 에이전트가 화두로 떠 오르기 전부터 연구를 시작했다고 합니다.

 

그럼 LAM은 과연 무엇일까요?

 

올해 초에 미국 라스베가스에서 개최된 CES 2024에서 래빗이라는 스타트업이 "래빗 R1"이라는 제품을 출시하였습니다.

래빗 R1은 LAM을 기반으로 작동하는 자체 운영체제인 래빗OS를 탑재하였고, 웹사이트, 앱, 플랫폼, 데스크톱 등에 관계없이 서비스를 작동할 수 있는 콘트롤러의 역할을 하는 제품으로 알려졌습니다.

 

래빗R1 스펙: LAM, 음성인식, 컴퓨터비전 제공 (출처: 래빗)

 

래빗 R1은 AI가 사용자의 앱 사용패턴을 학습하여 대상이 되는 앱을 래빗 홀(Rabbit Hole)이라는 웹 포털을 통해 작업을 수행할 수 있으며 AI 분야에서 LAM이 새로운 시대를 여는 것이 아니냐는 기대를 받았다고 합니다.

 

 

LG에서도 올해 초반부터 LG CNS의 기술 블로그에서 LAM에 대한 글을 올리고 있었습니다.

 

https://www.lgcns.com/blog/it-trend/52597/

 

2024년 AI 업계를 달굴 핫 키워드 LAM(대규모 행동 모델) - LG CNS

“2024년엔 진정한 에이전트(Agent, 복잡한 동적인 환경에서 목표를 달성하려고 시도하는 시스템)가 몰려온다.” 2023년은 대규모 언어 모델(LLM, Large Language Model, 이하 LLM) 기반의 생성형 AI(Generative A

www.lgcns.com

 

위의 링크 기사에서는 LAM이란 사용자의 행동 패턴을 학습하여 웹과 앱을 직접 작동시킬 수 있는 AI라고 소개하고 있는데, 기존의 LLM이 언어를 기반으로 다양한 AI적인 대응을 하는 모델이라고 한다면 LAM은 행동을 기반으로 한다는 이야기입니다.

그러나 완전하게 인간의 행동만을 기반으로 한다기보다는 언어의 이해와 행동의 결정 및 수행을 결합한 모델이라고 보는 것이 이해가 쉬울 것 같습니다.

 


 

LAM의 주요 특징은 다음과 같습니다.

 

  • 행동 수행 능력
    • LAM은 텍스트의 생성을 넘어 실제 행동을 수행할 수 있음
    • 예를 들어, 로봇 팔의 조작, 자율주행 자동차의 운전, 복잡한 작업 자동화 등이 가능함
  • 자율적 학습
    • 경험을 통해 스스로 학습하고 개선하는 능력을 가짐
    • 시간이 지날수록 더 효율적이고 지능적인 행동을 수행할 수 있음
  • 멀티모델 데이터 처리
    • 텍스트, 이미지, 동영상, 센서 데이터 등 다양한 형태의 데이터를 동시에 처리하고 이해할 수 있음
  • 실시간 의사 결정
    • 복잡한 환경에서 빠르게 상황을 분석하고 적절한 행동을 결정할 수 있음

 

LAM이 위와 같은 특징을 가진다고 할 때, 과연 기존의 LLM과는 어떤 차이를 얻을 수 있을까.. 고민하게 됩니다.

ChatGPT를 시작으로 LLM이 한창 떠오르고 있을때, Microsoft를 중심으로 ChatGPT의 프롬프트를 이용한 로봇 팔, 드론과 같은 실제 하드웨어를 제어하고자 하는 연구가 있었습니다.

 

https://www.microsoft.com/en-us/research/articles/chatgpt-for-robotics/

 

하드웨어 제어를 위한 함수가 구현된 특정 소스코드(또는 라이브러리)를 가르쳐주고, 프롬프트를 입력할 때 대답에 해당 소스코드의 함수를 적용하여 대답하도록 유도한 후, 대답에 포함된 함수를 이용하여 하드웨어를 제어하는 것과 같은 방식을 기초로 여러가지 연구를 진행하고 있었죠.

이러한 방법이 좀더 구체화되어 하나의 모델로 발전한 것이 LAM이 아닐까 생각합니다.

 


 

LAM은 인간의 지시를 작업으로 변환하여 작업을 이해하고 수행할 수 있는 AI 모델을 목표로 하고 있습니다.

따라서 LAM은 신경망과 딥 러닝 아키텍처를 기반으로 하며, 복잡한 프로세스를 관리 가능한 단계로 분해하고, 각 단계를 외부 시스템과 통합하여어 실제 세계와 상호작용할 수 있도록 설계되었습니다.

그리고 인간의 지시를 입력받고 이해하기 위하여 LLM을 기반으로 구축됩니다.

 

(출처: https://www.ionio.ai/blog/what-are-large-action-models-lam-and-how-they-work)

 

위에 링크한 그림은 LAM 연구 중 하나에서 제시한 아키텍처입니다.

아직 확실한 표준 모델이 만들어지지 않은 모델이라서 각 연구조직에 따라 다소 다른 모습을 보입니다.

그러나 핵심 작동원리는 거의 비슷하죠.

 

  1. 데이터 수집 및 학습
    • 사용자의 행동 패턴, 앱 사용방식, 웹 탐색 등 다양한 데이터 수집
    • 수집된 데이터를 바탕으로 사용자의 행동을 이해하고 모방할 수 있도록 학습
  2. 환경 인식 및 해석 (Grounding Stage)
    • 실시간으로 주변 환경을 관찰하고 해석
    • 사용자의 행동과 환경 정보 수집
  3. 작업 분석 및 계획 (Analyse Stage)
    • 수집된 정보를 바탕으로 작업 분석 및 계획 수립
    • 프롬프트 엔지니어링을 통해 최적의 행동 계획 도출
  4. 행동 실행 (Execution State)
    • 분석된 정보를 바탕으로 실제 행동 수행
    • 계획된 작업을 실제로 실행하고 그 결과 평가
  5. 피드백 및 개선
    • 실행 결과를 바탕으로 자체 개선 수행
    • 지속적으로 성능 최적화

 

LAM 작동원리를 보면 MS에서 연구하던 내용과 유사한 흐름을 볼 수 있으며 MS의 ChatGPT for Robotics 연구와 LAM은 다음과 같은 공통점을 가치고 있습니다.

  • 행동 실행 능력: 두 모델 모두 텍스트 생성을 넘어 실제 행동을 수행하는 것을 목표로 함
  • 자연어 인터페이스: 사용자가 자연어로 명령을 내리고 로봇이나 시스템이 이를 이해하고 실행할 수 있게 함
  • 다양한 작업 수행: 복잡한 작업을 여러 단계로 분해하고 실행할 수 있는 능력을 갖춤

 

그러나 다음과 같은 차이점도 가지고 있죠.

  • 모델 구조
    • ChatGPT for Robotics: 기존 ChatGPT 모델을 로봇 제어에 맞게 조정함
    • LAM: 행동 실행에 특화된 새로운 모델 구조를 가짐
  • 적용 범위
    • ChatGPT for Robotics: 주로 로봇 공학에 초점을 맞춤
    • LAM: 로봇 외에도 다양한 디지털 인터페이스와 시스템을 제어할 수 있음
  • 학습 방식
    • ChatGPT for Robotics: 프롬프트 엔지니어링과 고수준 함수 라이브러리를 통해 작업을 수행함
    • LAM: 신경 기호 프로그래밍을 통해 직접적으로 인간의 행동을 모델링함

 

즉 LAM은 직접적인 행동 모델링을 통해 더욱 정확하고 효율적으로 작업 수행이 가능하며, 범용성과 실시간 적응력을 확보하였으며, 자율적 학습을 통해 스스로 개선해 나갈 수 있는 장점을 가진 더욱 발전된 형태의 모델이라고 할 수 있습니다.

 


 

ChatGPT를 선두로 한 LLM의 등장 이후로 AI 기술의 많은 것이 바뀌었습니다.

저는 언제나 제대로 된 AI가 동작하기 위해서는 사람과 언어로 소통할 수 있는 자연어 처리 및 이해기술을 갖추고, 로봇과 같이 직접 움직이면서 주변 환경을 인식하고 학습하여 직접적, 적극적으로 사람들의 생활 속에 들어올 수 있는 환경이 구축될 때 본격적으로 AI 시대가 열릴 것이라고 생각해 왔습니다.

현재의 LLM과 LMM, 그리고 LAM이 더욱 고도화되고 서로 유기적으로 통합될 때, 즉 스스로 움직여서 모든 것에 접근할 수 있는 AI가 나타났을때, 비로소 우리는 상호 소통과 이해가 가능한 AI를 만날 것이라는 것입니다.

 

지금의 흐름을 보면 이제 그리 멀지는 않아 보입니다.

예상보다 상당히 앞당겨졌지만 새로운 시대가 열리는 것이 조금씩 기대가 되네요.

 

 

728x90
반응형