디코더 전용 LLM에 AlignAtt 최초 적용한 동시 음성 번역 시스템 제안

국제 음성 번역 워크숍 IWSLT 2026의 동시 음성 번역 과제를 위해 설계된 AlignAtt4LLM 시스템이 arXiv에 공개됐다. 이 시스템은 기존에 인코더-디코더 구조에만 적용됐던 AlignAtt 정책을 디코더 전용 LLM에 최초로 적용했다는 점에서 주목받는다. 캐스케이드 방식으로 설계돼, Qwen3-ASR이 강제 정렬(forced alignment)로 실시간 업데이트되는 소스 전사문을 생성하고 Gemma-4 E4B-it가 MT 측 정렬 정책 아래 해당 접두어를 번역하는 구조다.

핵심 과제는 인코더-디코더 구조에 존재하는 교차 어텐션(cross-attention)이 디코더 전용 모델에는 없다는 점이었다. 연구팀은 이 부재를 메우기 위해 네 가지 기술적 방안을 도입해, 교차 어텐션 없이도 AlignAtt 정책을 디코더 전용 아키텍처에서 구현할 수 있게 했다고 밝혔다. AlignAtt는 어텐션 정보를 활용해 소스의 어느 지점까지 입력이 들어왔을 때 번역 토큰을 생성할지 결정하는 동시 번역 정책이다.

Crop millennial female in jacket and warm hat focusing on smartphone screen and smiling while making phone call against blurred cars driving along street road in evening city — 사진: Andrea Piacquadio / Pexels

평가 결과, AlignAtt4LLM은 영어-독일어와 영어-이탈리아어 번역에서 낮은 지연(약 2초)과 높은 지연(4초 미만) 두 가지 체제 모두에서 제공된 기준선을 상회했다. 영어-중국어 번역의 경우 성능이 더 가변적이었으나, 더 강력한 디코더 전용 MT 모델로의 이전 가능성은 유망하다고 연구팀은 밝혔다. 동시 번역 분야에서 디코더 전용 LLM의 도입 가능성을 실증한 이번 연구는 실시간 음성 번역 시스템의 설계 방향에 새로운 선택지를 제시한다.

GPT류 대형 언어 모델이 번역 품질에서 두각을 나타내는 가운데, 이들의 디코더 전용 아키텍처를 실시간 스트리밍 번역에 활용하는 방법론 연구가 이어지고 있다. AlignAtt4LLM의 접근은 인코더-디코더 의존성을 제거해 더 넓은 범위의 최신 LLM을 동시 번역 파이프라인에 통합할 수 있는 가능성을 보여준다는 평가다.