• AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의
STORIUM
  • AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의
No Result
View All Result
  • AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의
No Result
View All Result
STORIUM
No Result
View All Result

GRPO 강화학습 개선 기법 CAST: 답 없이도 토큰 수준 보상 신호 생성

STORIUM 편집부 작성: STORIUM 편집부
2026년 06월 02일 17시 06분
Home AI 모델·연구
Share on FacebookShare on Twitter

대규모 언어 모델(LLM)의 추론 능력 향상에 널리 활용되는 검증 가능 보상 기반 강화학습(RLVR), 특히 그룹 상대 정책 최적화(GRPO)의 핵심 한계를 해결하려는 새 기법이 arXiv 논문(2606.00172)으로 발표됐다. 논문명은 CAST로, 비특권 클리핑 비대칭 자기 교수(Non-Privileged Clipped Asymmetric Self-Teaching)의 약어다.

기존 GRPO는 결과 수준의 보상만 제공해 감독 신호가 희박하다는 문제가 있으며, 한 프롬프트에서 샘플링된 경로 전부가 정답이거나 전부 오답이면 그룹 상대 어드밴티지 자체가 사라져 기울기가 소실된다. 이를 보완하려는 선행 연구인 온폴리시 자기증류(OPSD)는 밀도 높은 토큰 수준 지도를 제공하지만, 토큰 선호도가 경로 정확도와 항상 일치하지 않는다는 한계가 진단됐다. CAST는 이 관찰에서 출발해, 정답(reference solution) 없이 그래디언트를 차단한 자기 교사(stop-gradient self-teacher)를 활용해 경로 정확도에 따른 토큰 수준 어드밴티지를 형성한다.

Flat lay of language learning materials with gadgets promoting education.
사진: Ling App / Pexels

CAST의 핵심 설계 원리는 방향적 로컬 어드밴티지 부호 반전을 양방향으로 적용한다는 점이다. 정답 경로 내에서 교사가 부정적으로 평가한 토큰은 음의 토큰 어드밴티지를 받을 수 있고, 오답 경로에서 교사가 긍정적으로 평가한 토큰은 제한된 양의 로컬 어드밴티지를 받을 수 있다. 또한 전부 정답이거나 전부 오답인 그룹(제로 분산 그룹)에 대해서는 부호가 제약된 기저 어드밴티지를 부여함으로써 기울기가 완전히 사라지는 상황을 방지한다. 수학적 추론 실험에서 CAST는 검증기 기반 경로 수준 목표를 경량으로 유지하면서 RLVR 훈련 성능을 개선했다. LLM 추론 능력 강화를 위한 훈련 기법 연구에서 자기 교사 방식의 가능성을 보여주는 작업으로 평가된다.

Tags: GRPOLLM훈련RLVR강화학습수학추론자기증류
STORIUM 편집부

STORIUM 편집부

STORIUM 편집부 공식 계정

Next Post
A woman and a robot arm collaboratively holding a flower, symbolizing technology's gentle touch.

VLA 모델 신경 활성화를 피드백 제어로 동적 조정하는 CTRL-STEER

답글 남기기 응답 취소

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다

STORIUM은 트렌드와 인사이트를 전하는 종합 뉴스 매체입니다. 정확성, 균형, 맥락의 편집 원칙으로 신뢰받는 뉴스를 전합니다.

카테고리

  • AI 모델·연구
  • AI 서비스·툴
  • 반도체·인프라
  • 빅테크·기업
  • 산업 적용
  • 스타트업·투자
  • 정책·윤리

태그

AI규제 AI보안 AI안전 AI에이전트 AI 에이전트 AI윤리 AI인프라 Anthropic arXiv AWS ChatGPT Claude Co-Scientist Gemini GPU IPO LLM MCP NVIDIA OpenAI 강화학습 거버넌스 구글 데이터센터 로봇 마이크로소프트 멀티모달 멀티에이전트 메타 반도체 벤치마크 보안 사이버보안 스타트업 아마존 앤트로픽 에이전트 엔비디아 엔터프라이즈 오픈AI 오픈소스 자율주행 클라우드 클로드 허깅페이스

최근 뉴스

Close-up of a humanoid robot in motion, showcasing modern robotics innovation.

현대차 보스턴다이내믹스, 아틀라스 휴머노이드 신규 영상 공개

2026년 06월 02일 17시 38분
Abstract illustration depicting complex digital neural networks and data flow.

AWS, 에이전트 트래픽 겨냥 인프라 개편… ‘기계용 인터넷’

2026년 06월 02일 17시 38분
  • 소개
  • 문의
  • 광고문의
  • 개인정보처리방침
  • 이용약관
  • 청소년보호정책

© 2026 STORIUM. All rights reserved. 트렌드와 인사이트.

No Result
View All Result
  • AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의

© 2026 STORIUM. All rights reserved. 트렌드와 인사이트.