에이전틱 AI의 구성 요소

에이전틱 AI (Agentic AI)는 인공지능이 단순히 질문에 답하는 수준(Generative AI)을 넘어, 특정 목표를 달성하기 위해 스스로 계획을 세우고, 도구를 사용하며, 실행까지 완료하는 자율적 시스템을 의미합니다.

AI 및 IT 업계를 중심으로 대부분의 산업계가 작년까지는 생성형 AI라는 기술에 초점이 맞추어져 있었다면, 2026년 현재, AI 산업은 피지컬 AI와 에이전틱 AI를 중심으로 하는 '행동하는 AI'로 패러다임이 완전히 전환되었다고 할 수 있습니다.

그렇다면 생성형 AI와 에이전틱 AI는 어떻게 다른 것일까요?

기존의 생성형 AI가 사용자의 입력에 의해 반응하여 결과물을 만들어 내는 도구의 역할이었다면, 에이전틱 AI는 목표를 향해 주도적으로 움직이는 보조자, 조수, 파트너의 역할이라고 할 수 있습니다.

대표적인 차이를 정리하면 다음과 같습니다.

그럼 이러한 에이전틱 AI는 어떻게 구성되는 것일까요?

에이전틱 AI는 인간의 사고 및 행동 과정을 모방한 4가지 모듈이 유기적으로 결합되어 작동합니다.

① 추론 및 계획 (Reasoning & Planning)
에이전트의 '뇌'에 해당하며, 복잡한 목표를 작은 하위 작업(Sub-tasks)으로 쪼개고 실행 순서를 결정합니다.

작업의 구성과 실행 순서의 결정에는 CoT, Reflection과 같은 기술들이 사용됩니다.

추론 및 계획 과정은 왜 필요할까요?

바로 정답이 아닌 해결 경로를 찾아야 하기 때문입니다.

단순한 생성형 AI는 주어진 질문에 대해 즉각적인 '결과'를 내놓으려고 합니다.

하지만 우리가 해결해야 할 업무, 복잡한 목표는 한 번의 응답으로 해결되는 경우는 많지 않죠.

따라서 주어진 질문, 목표를 작은 단위로 쪼개어서(복잡도 분해) 실행하도록 합니다.

그리고 실행 도중 예상치 못한 결과가 나올 경우 에이전트가 이를 분석하고 계획을 수정(Self-correction)할 수 있도록 합니다.

만약 추론 능력이 없다면 에이전트는 한 번 잘못된 길로 들어섰을 때 빠져나오지 못하고 무한 루프에 빠지게 되기때문에 추론 및 계획 과정은 에이전틱 AI에서 매우 중요한 위치를 차지하고 있습니다.

② 기억 (Memory)
과거의 경험과 현재의 맥락을 기억하여 일관성 있는 행동을 유지합니다.

맥락 없는 행동은 에이전트의 일관성을 해치게 되는데 AI가 앞선 단계에서 무엇을 했는지, 사용자의 선호도가 무엇인지 잊어버린다면 에이전트로서의 가치가 사라지게 되죠.

그래서 기억 역시 에이전틱 AI에서 중요한 요소라고 할 수 있습니다.

기억 요소는 단기 기억과 장기 기억으로 구성됩니다.

③ 도구 사용 (Tool Use / Skills)
에이전트의 '팔과 다리'라고 할 수 있으며, LLM이 직접 할 수 없는 물리적/디지털 작업을 수행합니다.

이러한 도구 사용은 에이전틱 AI에 왜 필요할까요?

그것은 언어 모델, 즉 LLM은 현실 세계에 물리적 영향을 미칠 수 없기 때문입니다.

LLM은 근본적으로 '다음에 올 단어를 예측하는 모델'입니다.

따라서 스스로 웹 사이트를 클릭하거나, 엑셀 파일을 저장하거나, 주가 데이터를 실시간으로 가져올 수 없습니다.

단순히 질문(프롬프트)에 대답하는 것만으로는 우리의 일을 돕는데에 한계가 있기 마련입니다.

그래서 도구의 사용을 통해 능력의 확장과 최신성의 확보를 이끌어내게 됩니다.

능력 확장: 외부 API, 데이터베이스, 검색 엔진 등과 연결하여 '말'을 '행동'으로 바꿈
최신성 확보: 모델이 학습하지 않은 최신 정보(오늘의 환율, 특정 기업의 최근 뉴스 등)를 도구를 통해 실시간으로 확인하여 정확도를 높임
예시: 웹 검색, Python 코드 실행, 이메일 발송, API 호출 등

④ 지각 (Perception)
텍스트뿐만 아니라 이미지, 소리, 센서 데이터 등 다양한 입력을 받아 현재 상황을 파악(Multi-modal)합니다.

텍스트만으로는 세상의 정보를 모두 담을 수가 없습니다.

현대 비즈니스 환경은 이미지, PDF 도표, 음성, 실시간 화면 등 다양한 형태의 데이터로 가득 차 있기때문에 프롬프트로 입력되는 정보만으로 업무의 보조를 하는 것은 어렵습니다.

따라서 다양한 데이터나 형태(모드)에 따른 대응과 상황에 대한 인지 능력이 AI 에이전트에게 요구되는 것입니다.

다중 모드(Multi-modality) 대응: 에이전트가 사용자의 컴퓨터 화면을 보고 어디를 클릭할지 결정하거나, 영수증 사진을 보고 회계 처리를 하려면 시각적/청각적 지각 능력이 필수
상황 인지: 에이전트가 처한 환경을 이해하고, 변화를 감지하여 적절한 타이밍에 개입할 수 있게 함

이처럼 에이전틱 AI를 구현하기 위해서는 위의 4대 요소가 요구되고 있으며, 이 4대 요소가 유기적으로 관계를 맺지 않으면 AI 에이전트는 제대로 역할을 하지 못합니다.

에이전틱 AI의 구성요소에 대해서는 위에서 제시한 4가지 정의 외에도 조금씩 다른 주장, 정의가 있습니다만, 저는 위의 4가지 정의를 따르도록 하겠습니다.

728x90

AI 에이전트 개발 기반의 선택 (0)	2026.01.13
에이전틱 AI와 AI 에이전트 (0)	2026.01.13

티스토리툴바