• AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의
STORIUM
  • AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의
No Result
View All Result
  • AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의
No Result
View All Result
STORIUM
No Result
View All Result

Trajectory·UC버클리, 멀티-LoRA 연속학습 스택 SkyRL 오픈소스 공개

STORIUM 편집부 작성: STORIUM 편집부
2026년 06월 01일 17시 01분
Home AI 서비스·툴
Share on FacebookShare on Twitter

AI 스타트업 Trajectory가 UC 버클리 Sky Lab, Anyscale과 공동으로 멀티-LoRA(저랭크 적응) 동시 학습 플랫폼 ‘SkyRL’을 오픈소스로 공개했다. 코드는 NovaSky-AI/SkyRL 깃허브 저장소에 공개됐으며, 단일 테넌트 강화학습(RL) 프레임워크 대비 종단 간 실험 처리량이 2.81배 향상됐다는 성과를 보고했다. 학습 보상 지표에서는 회귀가 발생하지 않았다고 Trajectory 측은 밝혔다.

SkyRL이 겨냥하는 문제는 기존 연속학습 인프라의 네 가지 비효율이다. 첫째, 대형 모델의 체크포인트 로딩과 분산 런타임 초기화에 30분 이상 소요되는 콜드스타트 지연이다. 둘째, Qwen3.5-397B처럼 1,000억 개 이상 파라미터를 가진 모델은 H200 노드 8대를 요구하는데, LoRA는 베이스 모델을 동결하고 소형 어댑터 가중치만 학습해 메모리를 한 자릿수 배수로 줄인다. 셋째, 기존 스택은 실험을 순차 처리하지만 멀티-LoRA는 실험마다 별도 어댑터를 매핑해 N배 처리량 다중화를 실현한다. 넷째, 학습기와 추론 엔진이 서로 대기하면서 GPU가 유휴 상태에 놓이는 자원 낭비다. Trajectory는 이 접근 방식을 C-LoRA(연속 멀티-LoRA 학습)라 부른다.

Abstract illustration depicting complex digital neural networks and data flow.
사진: Google DeepMind / Pexels

추론 측 성능 향상의 핵심은 vLLM에서 모든 어댑터를 GPU 메모리에 올려두고 서로 다른 어댑터의 토큰을 같은 배치에 혼합 처리하는 구조다. SGMV 디코드 커널이 어댑터별 행렬-벡터 연산을 GPU 런치 1회로 통합해 디코딩 효율을 높인다. 학습 측은 현재 단일 어댑터 순차 방식으로, 각 테넌트의 LoRA 파라미터·마스터 가중치·옵티마이저 상태·그래디언트 버퍼가 AdapterStore에 저장되고 CPU 핀드 메모리와 GPU 사이를 교체하며 처리된다. 추론은 동시 다중화되지만 학습은 아직 직렬 방식이라는 점이 현재 아키텍처의 한계다.

Trajectory는 단일 H200 노드에서 Qwen3-4B-Instruct-2507을 사용해 GSM8K 수학 문제를 도구 호출(Calculator·Final Answer) 에이전트 방식으로 푸는 실험을 수행했다. 8개 어댑터를 동시에 학습시킨 결과 총 실험 시간이 5,433초였으며, 이는 순차 방식 3회 연속 실행보다 먼저 끝났다. N=4일 때 평균 실험 시간은 1.88배 단축됐다. 모든 동시 실험에서 9번째 학습 스텝까지 보상 정확도 90% 이상에 도달했고, 직렬 기준선 대비 최종 스텝에서 ±1σ 범위 내 성능을 유지했다. 다만 동시 실행 수(N)가 늘수록 첫 번째 실험 완료 시간과 스텝당 지연이 증가해 N=8에서 롤아웃 시간이 162초에서 401초로 늘어났으며, 프런티어급 대형 모델이나 8×H100·H200 노드 및 Megatron 빌드 환경이 요구된다는 점도 진입 장벽으로 꼽힌다.

Tags: LoRASkyRL강화학습연속학습오픈소스
STORIUM 편집부

STORIUM 편집부

STORIUM 편집부 공식 계정

Next Post
NVIDIA Dynamo Snapshot이 Kubernetes 환경에서 LLM 추론 워크로드의 빠른 시작을 지원하며 인퍼런스 인프라 배포 속도를 높인다.

NVIDIA, 쿠버네티스 LLM 추론 콜드스타트 단축하는 Dynamo Snapshot 공개

답글 남기기 응답 취소

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다

STORIUM은 트렌드와 인사이트를 전하는 종합 뉴스 매체입니다. 정확성, 균형, 맥락의 편집 원칙으로 신뢰받는 뉴스를 전합니다.

카테고리

  • AI 모델·연구
  • AI 서비스·툴
  • 반도체·인프라
  • 빅테크·기업
  • 산업 적용
  • 스타트업·투자
  • 정책·윤리

태그

AI과학 AI규제 AI보안 AI안전 AI에이전트 AI 에이전트 AI윤리 AI인프라 Anthropic AWS ChatGPT Claude Co-Scientist IBM IPO LLM MCP NVIDIA OpenAI 강화학습 거버넌스 구글 기업공개 데이터센터 마이크로소프트 멀티모달 멀티에이전트 메타 반도체 벤치마크 사이버보안 생산성 생성형AI 스페이스X 아마존 앤트로픽 에이전트 엔비디아 엔터프라이즈 오픈AI 오픈소스 중국 클라우드 클로드 허깅페이스

최근 뉴스

나무 바닥 위를 걷는 소형 로봇 — 가정 환경 로봇 훈련 데이터

로봇 훈련 데이터 新사업… 스타트업 Shift, 집 청소 무료 제공 대가로 가정 영상 수집

2026년 06월 01일 21시 12분
여성 얼굴에 바이너리 코드가 투영된 디지털 개념 이미지 — AI 챗봇 인간 행동 시뮬레이션

AI 챗봇 유용성 훈련이 인간 행동 시뮬레이션 능력을 약화시킨다

2026년 06월 01일 20시 36분
  • 소개
  • 문의
  • 광고문의
  • 개인정보처리방침
  • 이용약관
  • 청소년보호정책

© 2026 STORIUM. All rights reserved. 트렌드와 인사이트.

No Result
View All Result
  • AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의

© 2026 STORIUM. All rights reserved. 트렌드와 인사이트.