초지능의 협력 가능성, 설계 패러다임 전환 없이는 어렵다

현재 AI 연구의 지배적 패러다임이 본질적으로 비협력적인 초지능을 만들어낼 가능성이 있다는 이론적 주장이 제기됐다. 2일(현지시간) arXiv에 게재된 논문 “Solipsistic Superintelligence is Unlikely to be Cooperative”는 단일 에이전트 최적화를 전제하는 현행 AI 설계 방식이 구조적으로 협력을 저해한다는 논거를 제시한다.

저자들은 AI 연구의 핵심 도전 과제가 능력(capability)에서 공존(coexistence)으로 이동하고 있다고 진단한다. 기존 AI 연구는 세계를 외생적이고 정지된 피드백 원천으로 취급하는 에이전트를 개발하는 데 집중해 왔다. 연구팀은 이런 ‘독아론적(solipsistic)’ 설계 방식에서 탄생한 초능력 과제 해결사가 협력적일 가능성이 낮다고 주장한다. AI 시스템의 실제 배포는 환경의 내생적 비정상성(endogenous non-stationarity)을 유발하며, 이로 인해 훈련 분포와 배포 맥락 사이에 간극이 생긴다. 연구팀은 이를 단방향 최적화의 ‘자기 훼손 속성(self-undermining property)’이라 정의한다.

이 간극을 좁히려면 여러 행위자가 상호 의존성을 조율하는 균형 선택 과정인 ‘협력’에 참여하는 AI가 필요하다고 논문은 강조한다. 연구팀은 독아론적 접근 방식을 넘어 상호 의존성을 핵심 설계 원칙으로 삼는 비독아론적(non-solipsistic) 연구 패러다임을 촉구한다. 구체적으로는 적응적 상대방이 포함된 동적 평가 환경 구축, 제도(institutions)를 설계 기본 단위로 취급하는 방식, 구축하는 시스템의 구조적 특성으로서 인간의 주체성을 보존하는 것이 필요하다고 제안한다.

이 논문은 AI 정렬 논의에서 단순한 목표 명세 이상의 구조적 설계 변화가 필요하다는 점을 강조한다. 초지능 AI의 협력 가능성을 둘러싼 논쟁에 새로운 이론적 프레임을 제공하는 동시에, 멀티에이전트 시스템과 사회적 상호작용을 AI 연구의 중심에 놓을 것을 촉구하는 주장이다.