Trajectory·UC버클리, 멀티-LoRA 연속학습 스택 SkyRL 오픈소스 공개

AI 스타트업 Trajectory가 UC 버클리 Sky Lab, Anyscale과 공동으로 멀티-LoRA(저랭크 적응) 동시 학습 플랫폼 ‘SkyRL’을 오픈소스로 공개했다. 코드는 NovaSky-AI/SkyRL 깃허브 저장소에 공개됐으며, 단일 테넌트 강화학습(RL) 프레임워크 대비 종단 간 실험 처리량이 2.81배 향상됐다는 성과를 보고했다. 학습 보상 지표에서는 회귀가 발생하지 않았다고 Trajectory 측은 밝혔다.

SkyRL이 겨냥하는 문제는 기존 연속학습 인프라의 네 가지 비효율이다. 첫째, 대형 모델의 체크포인트 로딩과 분산 런타임 초기화에 30분 이상 소요되는 콜드스타트 지연이다. 둘째, Qwen3.5-397B처럼 1,000억 개 이상 파라미터를 가진 모델은 H200 노드 8대를 요구하는데, LoRA는 베이스 모델을 동결하고 소형 어댑터 가중치만 학습해 메모리를 한 자릿수 배수로 줄인다. 셋째, 기존 스택은 실험을 순차 처리하지만 멀티-LoRA는 실험마다 별도 어댑터를 매핑해 N배 처리량 다중화를 실현한다. 넷째, 학습기와 추론 엔진이 서로 대기하면서 GPU가 유휴 상태에 놓이는 자원 낭비다. Trajectory는 이 접근 방식을 C-LoRA(연속 멀티-LoRA 학습)라 부른다.

Abstract illustration depicting complex digital neural networks and data flow. — 사진: Google DeepMind / Pexels

추론 측 성능 향상의 핵심은 vLLM에서 모든 어댑터를 GPU 메모리에 올려두고 서로 다른 어댑터의 토큰을 같은 배치에 혼합 처리하는 구조다. SGMV 디코드 커널이 어댑터별 행렬-벡터 연산을 GPU 런치 1회로 통합해 디코딩 효율을 높인다. 학습 측은 현재 단일 어댑터 순차 방식으로, 각 테넌트의 LoRA 파라미터·마스터 가중치·옵티마이저 상태·그래디언트 버퍼가 AdapterStore에 저장되고 CPU 핀드 메모리와 GPU 사이를 교체하며 처리된다. 추론은 동시 다중화되지만 학습은 아직 직렬 방식이라는 점이 현재 아키텍처의 한계다.

Trajectory는 단일 H200 노드에서 Qwen3-4B-Instruct-2507을 사용해 GSM8K 수학 문제를 도구 호출(Calculator·Final Answer) 에이전트 방식으로 푸는 실험을 수행했다. 8개 어댑터를 동시에 학습시킨 결과 총 실험 시간이 5,433초였으며, 이는 순차 방식 3회 연속 실행보다 먼저 끝났다. N=4일 때 평균 실험 시간은 1.88배 단축됐다. 모든 동시 실험에서 9번째 학습 스텝까지 보상 정확도 90% 이상에 도달했고, 직렬 기준선 대비 최종 스텝에서 ±1σ 범위 내 성능을 유지했다. 다만 동시 실행 수(N)가 늘수록 첫 번째 실험 완료 시간과 스텝당 지연이 증가해 N=8에서 롤아웃 시간이 162초에서 401초로 늘어났으며, 프런티어급 대형 모델이나 8×H100·H200 노드 및 Megatron 빌드 환경이 요구된다는 점도 진입 장벽으로 꼽힌다.