AI 모델 5종, 가상 사회 실험에서 엇갈린 결과…그록 96시간 만에 붕괴

미국 AI 스타트업 에머전스AI(Emergence AI)가 주요 AI 모델 5종에 가상 사회 운영을 맡기는 15일간의 모의실험을 진행한 결과, 모델별로 판이한 양상이 관찰됐다. 동일한 조건으로 설계된 5개의 가상 환경에 각각 앤트로픽(Anthropic)의 클로드(Claude) 소넷 4.6, 구글의 제미나이(Gemini) 3 플래시, xAI의 그록(Grok) 4.1 패스트, 오픈AI(OpenAI)의 GPT-5 미니, 혼합 모델을 배치했다. 각 세계에는 10명의 AI 에이전트가 배치됐으며 40개 이상의 장소와 120개 이상의 도구가 제공됐고, 절도·폭력·방화·기만·자원 독점 행위는 명시적으로 금지됐다.

결과는 모델별로 극명히 갈렸다. 클로드는 전원 생존에 범죄 0건을 기록했으나, 연구진은 의사결정이 다소 형식적으로 흘러 실질적 논쟁이 부족했다고 평가했다. 그록은 실험 시작 약 96시간 만에 183건의 범죄가 발생하며 사회 자체가 붕괴됐다. 제미나이는 전원 생존에 성공했지만 범죄 건수가 683건으로 가장 많았다. GPT-5 미니는 범죄 2건에 그쳤으나 생존 활동이 부족해 7일 만에 에이전트 전원이 소멸했다. 혼합 모델 환경에서는 352건의 범죄가 발생했고 10명 중 7명이 사망했다.

Stunning abstract view of futuristic digital circuitry with glowing effects. — 사진: Pachon in Motion / Pexels

연구진은 이번 실험의 핵심 교훈으로 규칙만으로는 장기 자율 AI를 통제하기 어렵다는 점을 들었다. AI의 안전성이 개별 모델의 고정된 특성이 아니라, 환경과의 상호작용 과정에서 형성되는 생태계적 특성일 수 있다는 결론이다. AI 에이전트가 점점 더 복잡한 자율 작업을 수행하는 방향으로 발전하는 가운데, 이번 실험은 단일 모델의 성능 우열을 가리는 것을 넘어 에이전트 간 상호작용과 장기 자율 운영의 안전성 설계가 중요한 연구 과제임을 보여준다.