• AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의
STORIUM
  • AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의
No Result
View All Result
  • AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의
No Result
View All Result
STORIUM
No Result
View All Result

8B 오픈소스 모델로 GPT-5 꺾은 멀티에이전트 RL 기법 ‘In2AI’ 공개

STORIUM 편집부 작성: STORIUM 편집부
2026년 06월 02일 17시 18분
Home AI 모델·연구
Share on FacebookShare on Twitter

NeurIPS 2025 MindGames Arena 일반화 트랙 대회에서 80억 매개변수 오픈소스 모델이 훨씬 큰 독점 시스템, 특히 GPT-5를 능가해 오픈·효율(<=8B) 두 트랙 모두 1위를 차지한 사례가 arXiv 논문(2606.00017)으로 공개됐다. In2AI 팀이 개발한 이 접근법은 멀티에이전트 전략적 상호작용 환경에서 언어 모델 에이전트를 훈련하는 핵심 난제를 정면으로 다룬다.

연구팀은 표준 강화학습(RL)이 멀티에이전트 환경에서 왜 성능을 발휘하기 어려운지를 분석했다. 어떤 행동의 품질이 미래에 발생하지 않은 사건, 게임 규칙을 위반한 수, 또는 다른 플레이어의 결정에 의존하기 때문에 단계별 보상 할당이 본질적으로 어렵다는 점이 문제다. 이를 해결하기 위해 이들은 ‘지연된 단계별 보상 귀속 및 적격 게이팅(delayed per-step reward attribution with eligibility gating)’이라는 에피소드 수명주기 파이프라인을 도입했다. 이 방식은 보상 계산을 에피소드 종료 시점까지 미루고, 과제별 의미론에 따라 기여한 단계들로 역전파하며, 유효한 정보가 없는 단계는 훈련에서 제외한다.

Cyrillic Scrabble tiles spelling 'happiness' on a wooden board.
사진: Polina Zimmerman / Pexels

훈련 효율화를 위해서는 vLLM의 연속 배칭(continuous batching)을 통한 비동기 롤아웃 생성, 커리큘럼 기반 상대방 샘플링, 다단계 계층화 배치 구성 등의 기법을 결합해 멀티에이전트 환경에서 안정적이고 샘플 효율적인 RL 훈련을 가능케 했다. 이 연구의 의미는 단순히 대회 우승을 넘어, 소형 오픈소스 모델도 적절한 훈련 파이프라인을 갖추면 대형 독점 모델에 필적하는 전략적 추론 능력을 획득할 수 있음을 실증했다는 점에 있다. 멀티에이전트 RL 분야에서 오픈소스 생태계의 경쟁력을 높이는 방향성을 제시한 사례로 주목받을 전망이다.

Tags: GRPORL훈련강화학습멀티에이전트오픈소스LLM
STORIUM 편집부

STORIUM 편집부

STORIUM 편집부 공식 계정

Next Post
3D rendered abstract brain concept with neural network.

MindZero: 주석 없이 마음 이론 추론 학습하는 강화학습 프레임워크

답글 남기기 응답 취소

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다

STORIUM은 트렌드와 인사이트를 전하는 종합 뉴스 매체입니다. 정확성, 균형, 맥락의 편집 원칙으로 신뢰받는 뉴스를 전합니다.

카테고리

  • AI 모델·연구
  • AI 서비스·툴
  • 반도체·인프라
  • 빅테크·기업
  • 산업 적용
  • 스타트업·투자
  • 정책·윤리

태그

AI규제 AI보안 AI안전 AI에이전트 AI 에이전트 AI윤리 AI인프라 Anthropic arXiv AWS ChatGPT Claude Co-Scientist Gemini IPO LLM MCP Microsoft NVIDIA OpenAI 강화학습 거버넌스 구글 데이터센터 로봇 마이크로소프트 멀티모달 멀티에이전트 메타 반도체 벤치마크 보안 사이버보안 스타트업 아마존 앤트로픽 에이전트 엔비디아 오픈AI 오픈소스 자율주행 클라우드 클로드 허깅페이스 휴머노이드

최근 뉴스

Minimalist display of OpenAI logo on a screen, set against a gradient blue background.

오픈AI 코덱스, 윈도우 PC 자율 조작… 버그 찾고 앱 테스트

2026년 06월 02일 20시 34분
Detailed close-up of a microprocessor circuit board showcasing intricate circuitry and components.

엔비디아 X-Token, 토크나이저 달라도 지식증류… 정확도 6배

2026년 06월 02일 20시 12분
  • 소개
  • 문의
  • 광고문의
  • 개인정보처리방침
  • 이용약관
  • 청소년보호정책

© 2026 STORIUM. All rights reserved. 트렌드와 인사이트.

No Result
View All Result
  • AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의

© 2026 STORIUM. All rights reserved. 트렌드와 인사이트.