HuggingFace TRL, 델타 가중치 동기화로 1조 파라미터 RL 학습 전송 비용 99% 절감

허깅페이스(HuggingFace)가 TRL(Transformer Reinforcement Learning) 라이브러리에 델타 가중치 동기화 기능을 추가했다. 비동기 강화학습(Async RL) 환경에서 학습기(trainer)가 매 스텝마다 추론 엔진에 모델 전체를 전송해야 하는 고질적 병목을 해소하기 위한 것으로, 핵심 원리는 연속된 두 RL 최적화 스텝 사이에 변경된 가중치만 골라 전송하는 것이다. Qwen3-0.6B 기준 실험에서 스텝당 전송량이 기존 1.2GB에서 20~35MB로 줄었으며, 1조 파라미터 규모 모델에서는 이론적으로 1TB에서 수십 GB 수준으로 낮아질 것으로 분석된다.

이 최적화가 가능한 근거는 bf16(brain floating point 16) 수 표현의 특성에 있다. RL 학습에서 주로 쓰는 낮은 학습률 환경에서 Adam 옵티마이저가 한 스텝에서 개별 가중치에 가하는 변화량이 bf16의 표현 해상도 아래로 떨어지는 경우가 대부분이다. 이 경우 변화가 bf16 반올림에 흡수돼 실제 바이트 값이 바뀌지 않는다. PULSE 논문(Mihai & Belilovsky, 2026)이 이를 수학적으로 정형화했으며, Qwen2.5·Llama-3.2·Gemma-3 등 여러 모델에서 스텝당 평균 희소성(sparsity)이 약 99%에 달함을 실증했다. 변경된 요소만 스파스 safetensors 파일로 인코딩해 허깅페이스 버킷에 업로드하면, vLLM이 이를 자체 일정에 맞춰 내려받아 가중치를 재구성한다.

Visual abstraction of neural networks in AI technology, featuring data flow and algorithms. — 사진: Google DeepMind / Pexels

이 방식의 또 다른 이점은 학습기와 추론 엔진이 물리적으로 같은 클러스터에 있을 필요가 없다는 점이다. 허깅페이스 팀은 학습기를 별도 서버에, vLLM 추론 엔진을 허깅페이스 스페이스(Space)에, 강화학습 환경(Wordle 게임)을 또 다른 스페이스에 분산 배치한 완전 분리형 학습 실험을 완료했다. RDMA 패브릭이나 전용 크로스 리전 링크 없이도 공유 버킷 하나로 세 컴포넌트가 조율됐다. Fireworks의 분석에 따르면 fp8 설정에서 인접 체크포인트 간 평균 델타는 전체 모델의 약 1.98%(20.3GiB)에 불과하며, Cursor의 Composer 2도 학습과 추론을 다른 리전에 배치하고 공유 S3 버킷으로 가중치 차분을 교환하는 동일한 패턴을 적용한 바 있다.

이번 기능은 pip install로 즉시 사용 가능한 오픈소스 구현으로 제공된다는 점에서 의미가 크다. 프론티어 규모 모델의 강화학습이 일부 대형 연구소의 전유물에서 벗어나, 분산된 인프라를 보유한 조직도 접근 가능한 영역으로 진입하는 계기가 될 것으로 전망된다.