구글 딥마인드의 알렉상드르 무파렉(Alexandre Moufarek) 디렉터가 17일 경기도 성남 판교에서 열린 넥슨개발자컨퍼런스(NDC) 2026에서 게임을 기반으로 한 딥마인드의 AI 연구 역사와 현재 개발 중인 범용 에이전트 및 월드모델의 현황을 소개했다. 무파렉 디렉터는 딥마인드가 게임을 단순한 오락이 아니라 더 복잡한 현실 세계를 이해하기 위한 최소 모델로 활용해 왔다고 설명했다.
딥마인드의 게임 AI 연구는 단계적으로 확장됐다. 초기에는 아타리 게임 환경에서 다양한 게임에 통용되는 DQN 알고리즘을 개발했고, 알파고로 바둑이라는 복잡한 경기 문제에 도전했다. 이후 알파제로를 통해 체스와 일본 장기로 영역을 넓혔으며, 실시간 전략 게임 스타크래프트를 무대로 한 프로젝트 알파스타에서는 불완전 정보 환경에서의 추론과 실시간 전략 수정 능력을 연구했다. 무파렉 디렉터는 “스타크래프트는 여러 유닛을 동시에 조작해야 하고, 전장의 안개 때문에 상대 행동을 항상 알 수 없는 불완전 정보 게임”이라며 이것이 난도를 높이는 이유였다고 밝혔다.
현재 딥마인드의 양대 연구 축은 범용 에이전트 시마(SIMA)와 월드모델 지니(Genie)다. 시마는 3D 게임 환경에서 화면의 픽셀을 입력으로 받아 자연어 지시를 수행하는 에이전트로, 사람이 쓰는 것과 동일한 키보드와 마우스 인터페이스를 통해 게임을 조작한다. 지니는 특정 환경의 작동 원리를 이해하고 시뮬레이션하는 월드모델 시스템이다. 2024년 공개된 지니 1이 2D 환경에서 10초 내외의 시뮬레이션만 가능했던 것에 비해, 2세대인 지니 2는 3D 환경 생성과 분 단위 시뮬레이션, 조명·중력·반사 등 다양한 물리 현상 구현이 가능해졌다. 현재 개발 중인 지니 3는 텍스트 한 줄 입력만으로 최대 720p 해상도·24fps로 실시간 작동하는 가상 세계를 생성하며, 사용자 행동과 세계 변화를 기억하는 ‘월드 메모리’ 기능도 탑재했다고 밝혔다.
딥마인드는 시마와 지니를 결합해 AI가 스스로 학습하고 개선되는 플라이휠(flywheel) 구조를 구축하겠다는 방향을 제시했다. 에이전트가 월드모델 안에서 학습하고, 그 과정이 다시 월드모델 개선에 기여하는 순환 구조다. 무파렉 디렉터는 “3D 게임 세계에서 얻은 발견이 결국 현실과 로보틱스로 이어질 것”이라며 게임이 AI 연구의 안전한 실험장이라고 강조했다.














