허깅페이스(HuggingFace)가 TRL(Transformer Reinforcement Learning) 라이브러리에 델타 가중치 동기화 기능을 추가했다. 비동기 강화학습(Async RL) 환경에서 학습기(trainer)가 매 스텝마다 추론 엔진에 모델 전체를 전송해야 하는 고질적 병목을 해소하기 위한 것으로, 핵심 원리는 연속된 두 RL 최적화 스텝 사이에 변경된 가중치만 골라 전송하는 것이다. Qwen3-0.6B 기준 실험에서 스텝당 전송량이 기존 1.2GB에서 20~35MB로 줄었으며, 1조 파라미터 규모 모델에서는 이론적으로 1TB에서 수십 GB 수준으로 낮아질 것으로 분석된다.
이 최적화가 가능한 근거는 bf16(brain floating point 16) 수 표현의 특성에 있다. RL 학습에서 주로 쓰는 낮은 학습률 환경에서 Adam 옵티마이저가 한 스텝에서 개별 가중치에 가하는 변화량이 bf16의 표현 해상도 아래로 떨어지는 경우가 대부분이다. 이 경우 변화가 bf16 반올림에 흡수돼 실제 바이트 값이 바뀌지 않는다. PULSE 논문(Mihai & Belilovsky, 2026)이 이를 수학적으로 정형화했으며, Qwen2.5·Llama-3.2·Gemma-3 등 여러 모델에서 스텝당 평균 희소성(sparsity)이 약 99%에 달함을 실증했다. 변경된 요소만 스파스 safetensors 파일로 인코딩해 허깅페이스 버킷에 업로드하면, vLLM이 이를 자체 일정에 맞춰 내려받아 가중치를 재구성한다.

이 방식의 또 다른 이점은 학습기와 추론 엔진이 물리적으로 같은 클러스터에 있을 필요가 없다는 점이다. 허깅페이스 팀은 학습기를 별도 서버에, vLLM 추론 엔진을 허깅페이스 스페이스(Space)에, 강화학습 환경(Wordle 게임)을 또 다른 스페이스에 분산 배치한 완전 분리형 학습 실험을 완료했다. RDMA 패브릭이나 전용 크로스 리전 링크 없이도 공유 버킷 하나로 세 컴포넌트가 조율됐다. Fireworks의 분석에 따르면 fp8 설정에서 인접 체크포인트 간 평균 델타는 전체 모델의 약 1.98%(20.3GiB)에 불과하며, Cursor의 Composer 2도 학습과 추론을 다른 리전에 배치하고 공유 S3 버킷으로 가중치 차분을 교환하는 동일한 패턴을 적용한 바 있다.
이번 기능은 pip install로 즉시 사용 가능한 오픈소스 구현으로 제공된다는 점에서 의미가 크다. 프론티어 규모 모델의 강화학습이 일부 대형 연구소의 전유물에서 벗어나, 분산된 인프라를 보유한 조직도 접근 가능한 영역으로 진입하는 계기가 될 것으로 전망된다.


