비잔틴 장애 허용(Byzantine Fault Tolerance, BFT) 기법에서 파생한 다중 모델 AI 협의 아키텍처인 ‘콘실리움 프로토콜(Consilium Protocol)’을 제안한 논문이 arXiv에 공개됐다. 이 프로토콜은 여러 언어 모델(LM) 사이의 의견 불일치를 오류가 아닌 인식론적 신호로 취급하는 구조 위에 설계됐다. 연구진은 각 언어 모델에 인지적 역할(페르소나)을 명시적으로 부여함으로써 모델 자체의 정체성과 추론 방식을 분리해 다루는 접근법을 채택했다.
연구팀은 1,478회의 협의 세션을 10개 영역 32개 주제에 걸쳐 진행하며 네 가지 주요 결과를 도출했다. 첫째, 인식론적 결과를 결정하는 것은 언어 모델 자체가 아니라 부여된 페르소나임이 확인됐다. 배치당 0.0002달러에 불과한 무료 엣지 추론 모델이 배치당 10.69달러인 최신 모델과 유사한 분석 결과를 냈다. 둘째, 인간 피드백 기반 강화학습(RLHF) 정렬 훈련이 영역별로 측정 가능한 인식 맹점을 형성한다는 사실을 실증했다. 논쟁적 정책 주제는 정착된 과학 주제에 비해 12.3%p 낮은 반론 빈도를 보였으며, AI 안전 주제에서는 ‘AI가 위험하다’는 주장을 반박하는 빈도가 ‘AI 위험은 과장됐다’는 주장을 반박하는 빈도보다 11.6% 높게 나타나 비대칭 편향이 확인됐다.

셋째, 프로토콜 자체는 방향성 편향을 보이지 않았다. 이민 주제에서 편차가 2.3%, 재생에너지 주제에서 1.2%로 나타났다. 넷째, 학습 데이터 범위 밖의 증거를 활용한 검증 과정에서 239개 주장에 대해 100%의 근거 검색률을 달성하고, 학습 데이터 기반 협의로는 포착하지 못한 167개의 맹점을 새로 발견했다. 프로토콜의 반복 재현성은 무작위 모델-페르소나 조합에서 표준편차 ±2.2%였으며, 전체 실험 비용은 217달러였다. 연구팀은 프로토콜 명세를 MIT 라이선스로 공개했다.
이 연구는 RLHF로 정렬된 AI 모델이 정치·윤리·안전 관련 주제에서 체계적인 편향을 보일 수 있다는 점을 협의 실험으로 가시화했다는 점에서 의의가 있다. 단일 모델의 출력을 그대로 신뢰하는 대신 여러 모델의 독립적 관점을 종합하고 그 불일치를 정보로 활용하는 방향이, 더 신뢰할 수 있는 AI 시스템을 구축하기 위한 접근 중 하나로 주목받고 있다.


