NVIDIA NeMo AutoModel, MoE 모델 파인튜닝 속도 최대 3.7배 향상…API 호환 유지

NVIDIA가 오픈소스 라이브러리 NeMo AutoModel을 공개하며, HuggingFace Transformers v5와 완전한 API 호환성을 유지하면서 MoE(전문가 혼합, Mixture-of-Experts) 모델 파인튜닝 속도를 최대 3.7배 높이는 데 성공했다. 30억 규모의 활성 파라미터를 갖는 30B MoE 모델 기준, 기존 Transformers v5 최선 구성 대비 GPU당 처리량이 3.4~3.7배 향상되고 GPU 최대 메모리 사용량은 29~32% 감소했다. 사용자는 `from nemo_automodel import NeMoAutoModelForCausalLM` 한 줄로 기존 HuggingFace 코드를 그대로 활용할 수 있다.

NeMo AutoModel이 달성하는 성능 향상의 핵심은 세 가지 기술의 결합이다. 첫째, 전문가 병렬화(Expert Parallelism, EP)가 MoE 전문가 가중치를 GPU 간에 분산 저장해 GPU당 메모리 부담을 낮춘다. EP=8 구성에서 Qwen3-30B-A3B 모델의 GPU 최대 메모리가 68.2GiB에서 48.1GiB로 줄었고, Nemotron 3 Nano 30B A3B는 62.1GiB에서 42.5GiB로 감소했다. 둘째, DeepEP가 토큰 라우팅의 통신과 전문가 연산을 GPU 커널 수준에서 융합해 대기 시간을 줄인다. 셋째, NVIDIA TransformerEngine이 어텐션·선형 레이어·RMSNorm 연산을 가속 커널로 대체해 전체 레이어에 걸친 속도 향상을 제공한다. 단일 노드 8장의 H100 GPU 벤치마크에서 Qwen3-30B-A3B의 GPU당 평균 토큰 처리량이 Transformers v4의 경우 데드락으로 실패했고, v5 기준 3,075에서 NeMo AutoModel 11,340으로 3.69배 올랐다.

Top view of dual GeForce RTX graphics cards set against a bright yellow background, emphasizing modern technology. — 사진: Andrey Matveev / Pexels

550B 규모의 대형 모델인 Nemotron 3 Ultra 550B A55B에 대해서는 16노드(H100 128장) 전체 파인튜닝을 수행했다. 이 규모에서는 Transformers v5가 메모리 부족으로 실행 자체가 불가능했으나, NeMo AutoModel은 EP=64 구성으로 GPU당 평균 815 토큰/초, 58.2GiB 최대 메모리 사용으로 전체 파인튜닝을 완료했다. 배치 크기 2, 시퀀스 길이 4,096, 다중 토큰 예측(MTP)과 활성화 체크포인팅을 함께 적용한 조건이었다. NeMo AutoModel이 저장하는 체크포인트는 표준 HuggingFace safetensors 형식으로, vLLM·SGLang 등 기존 추론 프레임워크에서 그대로 불러올 수 있다.

NeMo AutoModel은 Transformers v5의 동적 가중치 로딩 시스템을 활용해 Mixtral, Qwen2/3 MoE, DeepSeek V2/V3, OLMoE 등 20여 가지 모델 유형을 지원한다. 지원하는 아키텍처에 대해서는 TransformerEngine 어텐션, 융합 선형 레이어, 커스텀 전문가 커널을 적용한 최적화 구현을 제공하고, 나머지 모델은 Liger 커널 패칭 등 일반 최적화를 적용한 기본 HuggingFace 코드로 자동 폴백한다. 해당 라이브러리와 코드, 벤치마크 스크립트는 NeMo AutoModel 공개 저장소에서 확인할 수 있다.