앨런 AI 연구소(Allen Institute for AI, Ai2) 연구팀이 하이브리드 언어 모델이 순수 트랜스포머(Transformer) 대비 어떤 토큰을 더 잘 예측하는지 토큰 단위로 분석한 결과를 발표했다. arXiv에 공개된 해당 논문(arXiv:2606.20936)의 저자는 얀홍 리(Yanhong Li)와 윌리엄 메릴(William Merrill)이며, 2026년 6월 18일 제출됐다. 이번 연구는 하이브리드 모델의 성능 우위가 어디에서 비롯되는지를 구체적으로 밝혔다는 점에서 언어 모델 아키텍처 연구 분야의 관심을 끌고 있다.
하이브리드 모델은 표준 트랜스포머의 일부 어텐션(attention) 레이어를 순환(recurrent) 레이어로 대체한 구조다. 연구팀은 Olmo 3(7B 파라미터 트랜스포머)와 Olmo 하이브리드를 동일한 데이터와 토크나이저 환경에서 비교하며 토큰별 손실값 차이를 측정했다. 분석에는 자연 토큰 태그, 복사 특성, 구분자 구조, 합성 탐사 기법이 활용됐다. 두 모델의 아키텍처 차이 자체가 성능에 미치는 영향을 최대한 순수하게 측정하기 위한 설계다.
연구 결과, 하이브리드 모델은 명사·동사·형용사 등 내용어(content word)와 대명사 지시 같이 맥락 의존적인 토큰 예측에서 트랜스포머보다 뚜렷한 우위를 보였다. 반면 닫는 괄호처럼 구문 규칙으로 충분히 예측 가능한 토큰이나, 이전 구절에서 그대로 반복되는 n-그램 구간에서는 트랜스포머가 앞서거나 하이브리드의 이점이 거의 사라졌다. 연구팀은 순환 레이어가 문서의 의미 상태를 활용하는 예측을 강화하는 반면, 어텐션은 n-그램 복사나 구문적 괄호 일치처럼 규칙 기반으로 예측 가능한 토큰에 더 효과적이라고 결론 내렸다. 이번 연구는 언어 모델의 전체 손실값보다 토큰 유형별 필터링된 손실이 아키텍처 비교에 더 유효한 지표가 될 수 있음을 시사한다.














