허깅페이스가 대규모 강화학습(RL)에서 모델 가중치를 효율적으로 동기화하는 오픈소스 방식을 공개했다. 비동기 RL의 비용을 크게 낮출 수 있는 접근으로, 학습기(trainer)가 갱신한 새 가중치를 추론 엔진(inference engine)으로 빠르게 옮기는 것이 핵심이다. 가중치 전송이 늦으면 추론 엔진이 학습 정책에서 점점 벗어나기 때문에, 이 전송은 동기·비동기를 막론하고 작업의 병목 구간에 놓인다.
핵심 통찰은 ‘학습 한 스텝에서 실제로 바뀌는 가중치는 2%에 불과하다’는 점이다. 처음엔 데모에서만 통할 법한 수치처럼 들리지만, 이는 bf16 연산이 RL이 쓰는 학습률에서 작동하는 방식에서 자연히 따라 나온다. bf16 수는 가수부 비트가 7개뿐이라, RL 학습률 수준의 미세한 갱신은 반올림에 흡수돼 바이트 표현이 바뀌지 않는다. 즉 대부분의 가중치는 실제로 변하지 않는다.

허깅페이스는 변한 가중치만 골라 전송하기 위해, 갱신된 부분(델타)만 공유 ‘Hub 버킷’에 올리는 방식을 택했다. 학습기는 쓰고, 추론 복제본들은 읽으며, Hub가 중간 연결을 처리한다. 이는 일부 기업이 쓰던 ‘공유 스토리지 버킷’ 방식의 오픈소스 등가물로, 콘텐츠 해싱과 권한 관리가 이미 갖춰져 있어 기존 스택과 자연스럽게 결합된다.
실제로 연구진은 서로 다른 네트워크에 있는 세 대의 머신으로 완전히 분산된 학습을 돌렸다. 학습기는 포트를 열지 않고, 추론 서버는 학습기의 주소를 모르며, 모두가 Hub를 통해서만 통신한다. 전송되는 델타 용량은 20~35MB 수준으로 유지됐고, 동기화 때 추론이 멈추는 시간은 약 1초에 머물렀다. 지구 어디서든 HTTPS만 가능하면 학습을 시작할 수 있다는 의미다.
이 방식은 대규모 모델 학습 인프라의 진입장벽을 낮춘다는 점에서 의미가 크다. 값비싼 전용 네트워크 없이도 분산 강화학습을 돌릴 수 있게 되면서, 자원이 제한된 연구실이나 스타트업도 대형 모델 후속 학습을 시도할 여지가 생긴다. 오픈소스 인프라를 활용하려는 국내 AI 연구 현장에도 실용적 참고가 되는 사례다.


