• AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의
STORIUM
  • AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의
No Result
View All Result
  • AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의
No Result
View All Result
STORIUM
No Result
View All Result

엔비디아 X-Token, 토크나이저 달라도 지식증류… 정확도 6배

STORIUM 편집부 작성: STORIUM 편집부
2026년 06월 02일 20시 12분
Home AI 모델·연구
Share on FacebookShare on Twitter

엔비디아 연구진이 서로 다른 토크나이저를 쓰는 모델 사이에서도 지식을 옮길 수 있는 새 지식증류(KD·큰 모델의 지식을 작은 모델로 이전하는 학습 기법) 방법 ‘X-Token’을 공개했다. 작은 학생 모델 Llama-3.2-1B에 X-Token을 적용한 결과 초등 수학 추론 벤치마크 GSM8k 정확도가 기존 최강 기법 적용 시의 2.56점에서 15.54점으로 약 6배 뛰었고, 5개 벤치마크 평균 점수에서도 종전 최고 기법 GOLD를 3.82점 앞섰다. X-Token은 별도의 학습 가능한 보조 모듈이나 구조 변경 없이 표준 손실 함수를 그대로 대체하는 방식이다.

기존 지식증류는 교사와 학생이 같은 토크나이저(텍스트를 토큰 단위로 쪼개는 규칙)를 공유해야 했다. 토큰 위치가 어휘 사전마다 달라 정렬이 안 되기 때문이다. 이 제약 탓에 Llama-3.2-1B를 쓰는 개발자는 Phi-4-mini나 Qwen3-4B처럼 토크나이저가 다른 더 강한 교사 모델의 지식을 빌릴 수 없었다. X-Token은 동적 계획법으로 두 모델의 토큰열을 같은 텍스트 구간끼리 묶고, 사전 사이를 잇는 투영 행렬 W로 학생의 확률 분포를 교사 어휘 공간에 대응시킨다. 행렬 W는 학습 전 토크나이저 문자열만으로 규칙 기반으로 만들어지며, 학습 데이터나 추가 학습 파라미터가 필요 없다.

Detailed close-up of a microprocessor on a motherboard showcasing its intricate design.
사진: Sergei Starostin / Pexels

연구진은 종전 최강 기법 GOLD가 두 가지 구조적 결함을 가졌다고 지적했다. 토크나이저가 텍스트를 다르게 쪼갤 때 핵심 토큰이 정렬되지 않는 영역으로 밀려나 오히려 해로운 학습 신호를 받는 문제가 첫째다. 예컨대 Llama-3는 ‘201’을 한 토큰으로 묶지만 Qwen3는 ‘2’, ‘0’, ‘1’로 쪼개는데, 이 경우 Llama의 두세 자리 숫자 1,100개가 전부 정렬 실패 영역으로 빠진다. 둘째는 엄격한 문자열 일치만 허용해 ‘Hundreds’와 ‘Hund’처럼 의미가 통하는 짝마저 버리는 지나친 보수성이다. X-Token은 두 손실 방식 P-KL과 H-KL을 상황에 맞춰 골라 쓰는 식으로 양쪽 결함에 각각 대응한다.

실험은 Llama-3.2-1B 학생에 Llama-3.2-3B·Qwen3-4B·Phi-4-mini를 교사로 두고 MMLU·GSM8k 등 5개 과제로 평가했으며, 단일 엔비디아 H100 한 장으로도 재현 가능한 규모다. 토크나이저가 다른 두 교사를 함께 쓴 다중 교사 설정에서는 평균 40.48점으로 단일 교사 최고치를 넘어섰고, 연구진은 교사 수가 아니라 교사 간 강점의 상호보완성이 성능을 끌어올린다고 분석했다. 소형 모델 운용 비용 절감이 화두인 한국 산업계에도 더 강한 외부 모델의 지식을 토크나이저 제약 없이 끌어와 경량 모델 성능을 높일 수 있다는 점에서 참고할 만한 결과다. 다만 학생 모델이 Llama-3.2-1B 한 종에 그쳐 더 큰 모델이나 명령어 튜닝 환경에서의 효과는 후속 검증 과제로 남았다.

Tags: LlamaNVIDIAX-Token지식증류토크나이저
STORIUM 편집부

STORIUM 편집부

STORIUM 편집부 공식 계정

Next Post
Minimalist display of OpenAI logo on a screen, set against a gradient blue background.

오픈AI 코덱스, 윈도우 PC 자율 조작… 버그 찾고 앱 테스트

답글 남기기 응답 취소

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다

STORIUM은 트렌드와 인사이트를 전하는 종합 뉴스 매체입니다. 정확성, 균형, 맥락의 편집 원칙으로 신뢰받는 뉴스를 전합니다.

카테고리

  • AI 모델·연구
  • AI 서비스·툴
  • 반도체·인프라
  • 빅테크·기업
  • 산업 적용
  • 스타트업·투자
  • 정책·윤리

태그

AI규제 AI보안 AI안전 AI에이전트 AI 에이전트 AI윤리 AI인프라 Anthropic arXiv AWS ChatGPT Claude Co-Scientist Gemini IPO LLM MCP Microsoft NVIDIA OpenAI 강화학습 거버넌스 구글 데이터센터 로봇 마이크로소프트 멀티모달 멀티에이전트 메타 반도체 벤치마크 보안 사이버보안 스타트업 아마존 앤트로픽 에이전트 엔비디아 오픈AI 오픈소스 자율주행 클라우드 클로드 허깅페이스 휴머노이드

최근 뉴스

Satellite in orbit with detailed view of Earth and ocean below.

그록 부진 속 스페이스X, IPO 앞두고 AI를 미래 핵심으로 내세웠다

2026년 06월 02일 21시 40분
Wooden blocks forming the word 'STARTUP' on a neutral background, symbolizing new business ventures.

AI 광풍 속 집단사고… 톱 VC 3인의 진단

2026년 06월 02일 21시 28분
  • 소개
  • 문의
  • 광고문의
  • 개인정보처리방침
  • 이용약관
  • 청소년보호정책

© 2026 STORIUM. All rights reserved. 트렌드와 인사이트.

No Result
View All Result
  • AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의

© 2026 STORIUM. All rights reserved. 트렌드와 인사이트.