다국어 추론 번역 캐스케이드, 원문 질문 보존하면 정확도 올라간다

다국어 AI 추론에서 흔히 쓰이는 번역 캐스케이드(translation cascade) 방식의 구조적 한계를 분석하고, 훈련 없이 적용 가능한 개선책을 제시한 연구가 arXiv에 공개됐다. 아르나브 마주므다르(Arnav Mazumder) 등 공동 저자들은 번역 캐스케이드가 효율적이지만 각 단계에서 문화적 맥락, 어조, 중의성 해소에 필요한 정보를 누적적으로 소실한다고 지적했다(arXiv:2606.27306).

번역 캐스케이드는 타 언어 질의를 영어로 번역하고 영어로 추론한 뒤 답변을 원어로 재번역하는 구조다. 이 방식은 영어 중심 LLM의 강점을 활용하면서도 다국어 사용자를 지원할 수 있어 널리 쓰인다. 그러나 번역 → 추론 → 역번역의 각 단계가 정보를 버리는 방향으로 작동하기 때문에, 후속 단계에서 필요로 하는 문화적 단서나 어휘 선택의 맥락이 사라지는 문제가 있다. 연구진은 이에 대한 해법으로 ‘맥락 인식 번역 캐스케이드(context-aware translation cascade)’를 제안했다. 핵심 개입은 단순하다. 최종 역번역 단계에 원문 질문, 영어 번역 질문, 추론 추적(reasoning trace)을 함께 제공하는 것이다.

연구진은 이 방법을 자원 수준이 서로 다른 285개 언어를 포괄하는 9개 다국어 벤치마크에서 검증했다. 그 결과 개방형 생성 과제에서 다양한 모델에 걸쳐 일관된 성능 향상이 확인됐다. 특히 “원어 질문이 유익한 맥락의 대부분을 제공한다”는 분석이 두드러졌다. 즉 영어 번역본이나 추론 추적보다 원래 사용자가 입력한 언어의 질문 자체가 맥락 복원에 가장 중요하다는 의미다. 이 결과는 훈련 데이터나 모델 구조 변경 없이 프롬프트 구성만으로 다국어 추론 파이프라인의 누적 오류를 줄일 수 있음을 보여준다는 점에서 실용적 함의가 크다.