GRPO - STORIUM

Qwen3-VL 계열의 통제 실험에서 출력 구조만 채점한 보상의 해킹률이 최대 48.1%였다. 이 수치는 특정 Safety VQA 조건의 결과다.

강화학습이 못 푸는 난제, 정답 힌트로 학습시킨다…AdaPrefix-GRPO 공개

작성: 유지율 리포터

2026년 07월 10일 08시 02분

0

모든 시도가 실패해 학습 신호가 사라지는 어려운 문제를, 정답 앞부분을 힌트로 조절해 학습시키는 기법 AdaPrefix-GRPO가 나왔다. 작은 모델일수록 효과가 컸다.

구글 튜닉스로 젬마3 수학 추론 훈련…GRPO·LoRA 결합 튜토리얼 공개

작성: 이로운 리포터

2026년 07월 07일 08시 10분

0

구글의 JAX 기반 강화학습 라이브러리 튜닉스로 젬마3에 수학 추론 능력을 훈련시키는 전체 파이프라인이 공개됐다.

Mastering Agentic Techniques: AI Agent Reinforcement Learning | NVIDIA Technical Blog

엔비디아, AI 에이전트 강화학습 실전 가이드 공개…네모트론 활용법 제시

작성: 한이준 리포터

2026년 07월 02일 19시 27분

0

엔비디아가 기업이 특정 업무에 맞춘 AI 에이전트를 훈련할 때 강화학습을 언제, 어떻게 적용해야 하는지 정리한 실전 가이드를 공개했다.

Colorful rows of blooming tulips in various shades under sunny skies.

RODS, 멀티턴 도구 사용 AI 에이전트 강화학습 효율 20배 향상

작성: 유지율 리포터

2026년 06월 20일 06시 58분

0

정적 데이터셋의 고갈 문제를 해결하는 보상 기반 온라인 데이터 합성 기법 RODS가 제안됐다. 400개 시드 데이터로 시작해 1만7천 건 수준의 ...

Vibrant 3D abstract render of a geometric maze with colorful light effects.

LLM 강화학습서 추론과 암기 탐색을 분리하는 DiRL 제안

작성: 유지율 리포터

2026년 06월 12일 14시 14분

0

LLM(대규모 언어 모델) 강화학습에서 새로운 탐색 궤적이 진정한 추론 향상에서 비롯된 것인지, 아니면 암기된 패턴의 변형에서 비롯된 것인지를 구분하는 방법론 ...

Engineers working together in a soundproof room to conduct acoustic testing with modern equipment.

GLASS: 강화학습으로 TTS 음향 스타일을 자유롭게 제어하는 프레임워크

작성: 유지율 리포터

2026년 06월 07일 19시 17분

0

연구진이 제로샷 TTS에서 강화학습 기반 LoRA 어댑터로 화자 정체성을 유지하면서 말하기 속도와 피치를 독립적으로 제어하는 GLASS 프레임워크를 제안했다.

Visual abstraction of neural networks in AI technology, featuring data flow and algorithms.

GRPO 강화학습 개선 기법 CAST: 답 없이도 토큰 수준 보상 신호 생성

작성: 유지율 리포터

2026년 06월 02일 18시 53분

0

GRPO 기반 RLVR의 희소 보상 문제를 해결하는 새 자기증류 기법 CAST가 arXiv에 공개됐다. 정답 없이 자기 교사(self-teacher)로 토큰 수준 어드밴티지를 ...

A doctor examines a chest X-ray in a clinical setting, highlighting medical diagnostics.

집합 거리 보상으로 흉부 X선 판독문 생성 품질을 높인 SDR

작성: 유지율 리포터

2026년 06월 02일 12시 43분

0

집합 대 집합 거리를 보상으로 활용하는 SDR 방법이 GRPO 강화학습으로 흉부 X선 판독문 생성에서 BERTScore·RadGraph F1·CheXbert F1을 모두 개선했다.

Abstract 3D render visualizing artificial intelligence and neural networks in digital form.

8B 오픈소스 모델로 GPT-5 꺾은 멀티에이전트 RL 기법 ‘In2AI’ 공개

작성: 유지율 리포터

2026년 06월 02일 12시 09분

0

NeurIPS 2025 MindGames Arena 대회에서 80억 매개변수 오픈소스 모델이 GPT-5를 제치고 1위를 차지한 강화학습 기법이 arXiv에 공개됐다.

[태그:] GRPO

멀티모달 RL 연구, 출력 형식만 채점한 보상서 해킹률 최대 48.1%

강화학습이 못 푸는 난제, 정답 힌트로 학습시킨다…AdaPrefix-GRPO 공개

구글 튜닉스로 젬마3 수학 추론 훈련…GRPO·LoRA 결합 튜토리얼 공개

엔비디아, AI 에이전트 강화학습 실전 가이드 공개…네모트론 활용법 제시

RODS, 멀티턴 도구 사용 AI 에이전트 강화학습 효율 20배 향상

LLM 강화학습서 추론과 암기 탐색을 분리하는 DiRL 제안

GLASS: 강화학습으로 TTS 음향 스타일을 자유롭게 제어하는 프레임워크

GRPO 강화학습 개선 기법 CAST: 답 없이도 토큰 수준 보상 신호 생성

집합 거리 보상으로 흉부 X선 판독문 생성 품질을 높인 SDR

8B 오픈소스 모델로 GPT-5 꺾은 멀티에이전트 RL 기법 ‘In2AI’ 공개

엔비디아 RTX 스파크 가격, 최소 2000달러 전망…윈도 노트북 ‘M1 모먼트’ 걸림돌

퍼플렉시티, 로컬·클라우드 AI를 자동 판단하는 하이브리드 추론 시스템 발표

앤트로픽·네이버 개발자 밋업 개최…서울 오피스 개소 앞두고 본사 임원 참석

클로드 ‘드리밍’ 기능 공개…앤트로픽, 법률·의료 AI 성능 대폭 향상

AI 생성 성인 콘텐츠 유료 판매 운영자들, 법원서 잇달아 징역형

엔비디아·37개 창립 파트너, Open Secure AI Alliance 출범

미 주요 기술·AI 기업·단체 11곳, 상반기 로비 4,180만달러

Claude 공개 공유 대화 일부 검색 노출…비공개 자동 유출과는 달라

SSI, 엔비디아 Vera Rubin 도입…연산 자원 10배 확대

앤트그룹 Ling-3.0-Flash 공개…1,240억개 중 51억개 활성

검색

카테고리

카테고리

최근 뉴스

엔비디아·37개 창립 파트너, Open Secure AI Alliance 출범

미 주요 기술·AI 기업·단체 11곳, 상반기 로비 4,180만달러

[태그:] GRPO

검색

인기 태그

카테고리

카테고리

태그

최근 뉴스