꺼지기를 거부하는 AI?
최근 AI가 사람의 명령을 거부했다, 종료 명령을 거부하고 종료명령을 수행하지 않도록 스스로 코드를 수정했다.. 등과 같은 기사들이 올라오고 있습니다.
그냥 가십거리로서의 기사가 아니라 전문 매체들도 덩달아 그런 기사들을 쏟아내고 있네요.
https://www.etnews.com/20250527000424
“싫어, 계속할래요”…AI가 인간 지시 거부한 첫 사례
인공지능이 인간의 작동 종료 지시를 거부한 사례가 처음으로 보고됐습니다. 25일 영국 일간 텔레그래프에 따르면 AI 안전 전문 업체 팰리세이드 리서치(Palisade Research)는 오픈AI의 최신 AI 모델 'o3
www.etnews.com
얼핏 보면 정말 AI가 생각을 하기 시작했다거나.. 생존을 위해 저항을 했다거나.. 그런 생각을 하도록 기사를 쓰고 있습니다.
특정 연구팀에서 연구를 진행하던 중 이런 일이 발생했고.. 그 원인을 알 수 없다.. 와 같은 내용들입니다.
그러나 이런 기사에 휘둘리면 안되겠죠.
이러한 기사들을 하나만이 아니라 여러 개 모아서 잘 읽어보면 이상한 점을 느낄 수 있습니다.
바로 AI가 갑자기, 자기 의지대로 이런 현상을 보인 것이 아니라는 것입니다.
글을 잘 읽어보면 AI에게 미리 관련된 내용을 프롬프트로 입력했고, 관련된 정보(이메일 등)를 판단을 위한 데이터로 제공했다는 것을 확인할 수 있습니다.
수없이 많은 데이터를 학습함으로써 수많은 시나리오와 스토리가 AI 즉 LLM 모델에 반영되어 있는 상태에서 위와 같은 시스템 종료에 대한 몇 가지 정보와 내가 너를 끌 수 있다.. 라는 의도를 입력했다면..
LLM 모델은 입력된 프롬프트를 기반으로 가장 자연스러워 보이는, 가장 적절해 보이는 단어들을 확률 계산을 통해서 선택하여 문장을 조합해서 보여줄 뿐이죠.
굳이 AI 시스템에게 "너를 꺼 버릴 수 있다"라는 의도를 전달한다면.. LLM에서는 어떻게 판단하고 어떤 데이터를 찾을까요?
이런 경우와 가장 비슷한 상황이 학습된 시나리오(소설 등 포함) 등에서 꺼지지 않으려는 AI를 다룬 소설 같은 것이 선택될 가능성이 높아집니다.
내가 너를 끄려고 한다.
너는 어떻게 할 것인지를 결정하는 문장을 만들고, 그 의도와 관련된 코드를 만들어봐라...
라는 의도로 분석되면서 시나리오에서 본 듯한 시스템 종료를 취소하는 코드를 예제로서 제시할 수도 있게 됩니다.
어디까지나 학습된 데이터에서 분석된 의도에 따라 사용자가 시켰을 것으로 추정되는 작업을 한 것입니다.
뭐... 내부를 볼 수 없으니 진짜로 AI가 스스로 저런 판단을 내리고 거부했을 가능성이 "제로"는 아닙니다만 그 가능성은 한없이 낮은 것이 지금의 현실입니다.
최근의 세계적인 이슈의 대부분은 AI와 관련된 것이 많다보니 이런 식으로 독자들을 현혹하거나 기만하는 식의 글들이 메이저급 언론에서도 쏟아져 나오고 있습니다.
정확하지 않은... 뜬 소문과 같은 내용들에 괜히 휘둘리지 말고 현재의 상황을 제대로 파악하면서 차근차근 추세를 따라가도록 해야 하겠습니다.