엔비디아 X-Token, 토크나이저 달라도 지식증류… 정확도 6배

엔비디아 연구진이 서로 다른 토크나이저를 쓰는 모델 사이에서도 지식을 옮길 수 있는 새 지식증류(KD·큰 모델의 지식을 작은 모델로 이전하는 학습 기법) 방법 ‘X-Token’을 공개했다. 작은 학생 모델 Llama-3.2-1B에 X-Token을 적용한 결과 초등 수학 추론 벤치마크 GSM8k 정확도가 기존 최강 기법 적용 시의 2.56점에서 15.54점으로 약 6배 뛰었고, 5개 벤치마크 평균 점수에서도 종전 최고 기법 GOLD를 3.82점 앞섰다. X-Token은 별도의 학습 가능한 보조 모듈이나 구조 변경 없이 표준 손실 함수를 그대로 대체하는 방식이다.

기존 지식증류는 교사와 학생이 같은 토크나이저(텍스트를 토큰 단위로 쪼개는 규칙)를 공유해야 했다. 토큰 위치가 어휘 사전마다 달라 정렬이 안 되기 때문이다. 이 제약 탓에 Llama-3.2-1B를 쓰는 개발자는 Phi-4-mini나 Qwen3-4B처럼 토크나이저가 다른 더 강한 교사 모델의 지식을 빌릴 수 없었다. X-Token은 동적 계획법으로 두 모델의 토큰열을 같은 텍스트 구간끼리 묶고, 사전 사이를 잇는 투영 행렬 W로 학생의 확률 분포를 교사 어휘 공간에 대응시킨다. 행렬 W는 학습 전 토크나이저 문자열만으로 규칙 기반으로 만들어지며, 학습 데이터나 추가 학습 파라미터가 필요 없다.

Detailed close-up of a microprocessor on a motherboard showcasing its intricate design. — 사진: Sergei Starostin / Pexels

연구진은 종전 최강 기법 GOLD가 두 가지 구조적 결함을 가졌다고 지적했다. 토크나이저가 텍스트를 다르게 쪼갤 때 핵심 토큰이 정렬되지 않는 영역으로 밀려나 오히려 해로운 학습 신호를 받는 문제가 첫째다. 예컨대 Llama-3는 ‘201’을 한 토큰으로 묶지만 Qwen3는 ‘2’, ‘0’, ‘1’로 쪼개는데, 이 경우 Llama의 두세 자리 숫자 1,100개가 전부 정렬 실패 영역으로 빠진다. 둘째는 엄격한 문자열 일치만 허용해 ‘Hundreds’와 ‘Hund’처럼 의미가 통하는 짝마저 버리는 지나친 보수성이다. X-Token은 두 손실 방식 P-KL과 H-KL을 상황에 맞춰 골라 쓰는 식으로 양쪽 결함에 각각 대응한다.

실험은 Llama-3.2-1B 학생에 Llama-3.2-3B·Qwen3-4B·Phi-4-mini를 교사로 두고 MMLU·GSM8k 등 5개 과제로 평가했으며, 단일 엔비디아 H100 한 장으로도 재현 가능한 규모다. 토크나이저가 다른 두 교사를 함께 쓴 다중 교사 설정에서는 평균 40.48점으로 단일 교사 최고치를 넘어섰고, 연구진은 교사 수가 아니라 교사 간 강점의 상호보완성이 성능을 끌어올린다고 분석했다. 소형 모델 운용 비용 절감이 화두인 한국 산업계에도 더 강한 외부 모델의 지식을 토크나이저 제약 없이 끌어와 경량 모델 성능을 높일 수 있다는 점에서 참고할 만한 결과다. 다만 학생 모델이 Llama-3.2-1B 한 종에 그쳐 더 큰 모델이나 명령어 튜닝 환경에서의 효과는 후속 검증 과제로 남았다.