재슨 사보(Jazon Szabo)와 산제이 모드길(Sanjay Modgil)이 arXiv에 제출한 논문은 AI 에이전트의 가치 정렬(value alignment) 문제를 도덕 불확실성(moral uncertainty) 관점에서 분석한다. 사회와 개인이 복수의 도덕적 관점을 동시에 채택하는 현실에서, 여러 도덕 이론에 걸쳐 행동 평가를 공정하게 집계하는 메커니즘이 필요하다는 데서 출발한다. 기존 도덕 불확실성 연구는 이런 집계 방식을 제안해 왔지만, 이 논문은 맥락 요인을 무시하면 집계 자체가 직관에 어긋나는 결과를 낳는다고 주장한다.
연구진이 특히 주목한 것은 결과주의(consequentialism) 관점이다. 결과주의는 에이전트의 행동이 세계를 어떻게 변화시키는지 정확히 파악할 수 있다고 가정하지만, 이 가정은 실제 환경에서 성립하지 않는 경우가 많다. 논문은 이처럼 현실에서 자주 무너지는 맥락 전제들을 명시적으로 형식화해, 도덕 불확실성 하에서의 에이전트 의사결정 모델에 통합했다. 그 결과 논리적으로 직관적인 속성인 약한 파레토(weak Pareto) 원칙이 위반될 수 있음을 증명한다.

논문은 이 파레토 위반이 실제로는 심슨의 역설(Simpson’s paradox)의 변형임을 보인다. 심슨의 역설은 집계 데이터에서 드러나는 경향이 하위 집단 분석 시 역전되는 통계 현상으로, 맥락 변수를 무시한 집계가 얼마나 오해를 낳을 수 있는지를 잘 보여 준다. 연구진은 이 분석을 통해 도덕 이론들의 집계 시 맥락 요인을 반드시 고려해야 한다는 결론을 도출한다.
이 연구는 AI 안전 분야에서 가치 정렬 연구가 단순한 선호 집계를 넘어 맥락 민감성을 갖춰야 한다는 논거를 제공한다. 대형 언어 모델(LLM) 기반 에이전트가 복잡한 도덕적 판단이 요구되는 영역에 본격 배치되면서, 이처럼 도덕 불확실성의 형식적 기반을 다지는 연구의 중요성은 높아지고 있다.














