Trajectory, 멀티-LoRA 연속학습 스택 SkyRL 오픈소스 공개… 실험 처리량 2.81배

AI 스타트업 Trajectory가 UC Berkeley Sky Lab, Anyscale과 공동으로 개발한 멀티-LoRA(저랭크 적응) 연속학습 플랫폼 ‘C-LoRA(Continuous LoRA)’를 NovaSky-AI/SkyRL 깃허브 저장소에 오픈소스로 공개했다. 2026년 5월 27일 공개된 기술 보고서에 따르면, 단일 H200 노드에서 8개 실험을 동시에 처리했을 때 기존 단일 테넌트(single-tenant) 직렬 방식 대비 최종 실험 완료 시간이 2.81배 빨라졌으며 보상 정확도의 손실은 전혀 없었다.

C-LoRA의 핵심 아이디어는 매번 GPU를 새로 할당하고 체크포인트를 재로드하는 ‘콜드스타트’ 방식을 버리고, 항상 켜진 단일 추론·훈련 엔진 위에 각 실험을 별도의 LoRA 어댑터로 매핑하는 것이다. 추론 단계에서는 vLLM의 SGMV 디코드 커널이 여러 어댑터의 행렬-벡터 연산을 하나의 GPU 커널 호출로 융합해 서로 다른 어댑터의 토큰을 같은 배치에서 처리하며, 훈련 단계에서는 활성 어댑터 하나가 GPU를 점유하는 동안 나머지 어댑터의 상태는 핀드(pinned) CPU 메모리에 대기시킨다. 이 구조 덕분에 대규모 모델(Qwen3.5-397B 기준 H200 8노드 필요)도 LoRA의 메모리 절감 효과와 다중 실험 병렬 실행의 처리량 이득을 동시에 누릴 수 있다.

파란 조명이 켜진 서버 랙 인프라 — 사진: panumas nikhomkhai / Pexels

Trajectory가 단일 H200 노드에서 Qwen3-4B-Instruct-2507을 사용해 GSM8K 도구 사용 벤치마크로 검증한 결과, 8개 병렬 실험(N=8)의 전체 완료 시간은 직렬 실행 8회 대비 2.81배 단축됐다. 평균 실험 완료 시간도 N=4 기준 1.88배 향상됐다. 반면 트레이드오프도 존재한다. N=4에서 단일 스텝당 훈련 시간이 2.22배 늘어났고, 스텝 시간 증가분의 약 77%는 추론(롤아웃) 경로에서 발생했다. N=2 시나리오에서는 롤아웃 시간이 15%만 증가하면서도 스텝당 LoRA 처리량은 약 2배에 달해, 유휴 GPU를 채우는 이상적인 활용 사례로 제시됐다. 정확도 측면에서는 N=1·2·4·8 모든 동시성 수준에서 9스텝 이내에 보상 정확도 90% 이상을 달성해 병렬화로 인한 학습 품질 저하가 없음을 확인했다.

Trajectory는 이 시스템이 ‘월 단위 재학습’이 아닌 ‘시간 단위 지속 업데이트’를 가능하게 하는 연속학습 인프라의 초기 설계라고 밝혔다. 현재는 중간 규모 모델(Qwen3-4B, Nemotron-30B MoE) 수준에서 검증됐으며, 향후 어댑터 동시 실행 수 확대, 수조 파라미터 규모 모델 적용, 훈련 단계에서의 다중화 등을 연구 방향으로 제시했다. 코드베이스는 SkyRL 저장소에서 누구나 내려받을 수 있으며, 8×H100/H200 노드와 CUDA 12.8 이상 환경에서 즉시 실행 가능한 런처 스크립트도 함께 제공된다.