AI 인프라 연구 기업 Prime Intellect가 오픈소스 강화학습(RL) 프레임워크 prime-rl의 버전 0.6.0을 공개했다. 이번 업데이트는 조(兆) 단위 파라미터를 가진 MoE(혼합 전문가, Mixture-of-Experts) 모델을 대상으로 에이전트형 RL 작업을 수행할 수 있도록 설계됐다. 대표 적용 사례로는 장기 소프트웨어 엔지니어링(SWE) 과제처럼 수백 번의 도구 호출이 이어지는 복잡한 코딩 작업이 있다. 공개된 벤치마크에 따르면 대형 MoE 모델을 긴 시퀀스 길이에서 훈련할 때도 스텝당 소요 시간을 짧게 유지했으며, 수십 개 H200 노드 규모만으로 훈련이 가능했다.
prime-rl 0.6.0의 핵심 설계 원칙은 훈련기(trainer)와 추론기(inference)를 분리하는 비동기 RL 구조다. 에이전트 과제에서는 일부 롤아웃이 수 시간씩 걸리는 이상치(long-tail outlier)가 발생하는데, 기존 동기식 방식은 이 롤아웃이 끝날 때까지 GPU가 유휴 상태가 된다. prime-rl은 훈련기와 추론기를 독립적으로 실행해 이 문제를 해결했다. 옵티마이저 스텝이 완료되는 즉시 추론 정책이 갱신되며, 이미 실행 중인 롤아웃은 기존 KV 캐시 접두사를 유지한다. 오래된 정책에서 생성된 요청은 `max_off_policy_steps` 파라미터로 제어해 자동으로 드롭한다.

추론 최적화에서는 FP8 정밀도, 광역 전문가 병렬화(Wide EP, 32개 이상 GPU에 전문가를 분산), 프리필-디코드 분리(P/D 분리), CPU·디스크 계층형 KV 캐시 오프로딩 등을 결합했다. 특히 프리필 토큰 비중이 높은 모델-환경 조합에서는 P/D 분리가 엔드투엔드 지연을 크게 낮춘다. 훈련 측에서는 torchtitan 기반 3차원 병렬화(FSDP, EP, CP)와 블록 스케일 FP8을 적용했다. FP8 훈련의 주된 목적은 처리량 향상보다 추론과 훈련 간 수치 정밀도를 일치시켜 KL 불일치를 줄이는 것이다. 라우터 리플레이(R3) 기법은 추론 라우팅 결정을 캡처해 훈련기에 재현함으로써 KL 불일치를 크게 감소시킨다.
prime-rl 0.6.0은 GLM-5.1 외에도 Kimi-K2.7-Code, NVIDIA Nemotron Ultra 550B 같은 대형 MoE 모델에 동일한 최적화 구조를 적용할 수 있도록 설계됐다. 전체 GLM-5.1 훈련 실행은 Slurm 클러스터에서 단일 명령으로 시작할 수 있어 운영 편의성도 높였다. 글로벌 AI 업계에서는 소프트웨어 엔지니어링 에이전트 훈련에 수천 개 GPU를 투입하는 사례가 늘고 있는 가운데, 오픈소스 프레임워크가 조 단위 파라미터 규모를 수십 노드로 다룰 수 있게 된 점은 국내 LLM 연구 기관과 기업에도 실질적인 접근 가능성을 열어줄 것으로 평가된다.














