LLM 출력 설명 가능성의 한계와 좋은 설명의 정의 연구

arXiv에 2026년 6월 12일 공개된 논문이 AI 시스템 출력에 대한 ‘좋은 설명’을 정의하는 문제를 다뤘다. 무엇이 좋은 설명인지에 대한 질문은 오랜 철학적 논쟁이며, AI 출력의 설명 가능성(explainability) 맥락에서 최근 다시 주목받고 있다. 설명 가능성은 의료·법률·금융 등 고위험 분야에서 AI 도입을 위한 필수 요건으로 여겨진다.

연구진은 반사실적 설명(counterfactual explanation) 개념에서 영감을 얻어 좋은 설명의 정의를 제안했다. 반사실적 설명이란 어떤 조건이 달랐다면 결과가 달라졌을 것이라는 방식으로 원인을 설명하는 접근법이다. 그러나 연구진은 단순한 반사실적 설명만으로는 충분하지 않다고 주장한다. 설명을 받는 상대방이 제시된 각 사실에 대해 사전에 어떤 믿음을 갖고 있는지도 반드시 고려해야 한다는 것이다. 상대의 사전 믿음에 따라 같은 설명이 납득 가능할 수도, 그렇지 않을 수도 있기 때문이다.

연구진은 이 정의가 LLM(대규모 언어 모델) 출력의 설명에 갖는 함의를 분석했다. LLM의 출력은 방대한 파라미터와 학습 데이터로부터 나오는 만큼, 어떤 입력이 어떤 출력을 유발했는지 인과 관계를 명확하게 추적하기 어렵다. 또한 모델이 응답을 생성하는 과정에서 활성화되는 내부 표상은 직접 해석하기 어려운 고차원 구조를 띤다. 이러한 특성 때문에 LLM 출력에 대한 ‘좋은 설명’을 생성하는 것은 특히 어렵다는 것이 이 논문의 결론이다.

설명 가능 AI(XAI) 분야의 이론적 토대를 강화하려는 시도는 AI 규제 논의와도 맞닿아 있다. EU AI법을 비롯한 주요 규제 프레임워크가 AI 시스템의 설명 의무를 강화하는 방향으로 가고 있어, ‘무엇이 좋은 설명인가’에 대한 학문적 합의 도출이 실질적 의미를 갖게 되고 있다.