• AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의
STORIUM
  • AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의
No Result
View All Result
  • AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의
No Result
View All Result
STORIUM
No Result
View All Result

자율주행 RL 탐색에서 불확실성 기반 전문가 조언 활용 연구

STORIUM 편집부 작성: STORIUM 편집부
2026년 06월 02일 12시 14분
Home AI 모델·연구
Share on FacebookShare on Twitter

자율주행을 위한 강화학습(RL) 훈련 과정에서 에이전트의 탐색이 본질적으로 안전하지 않다는 문제를 해결하는 새로운 프레임워크가 arXiv에 공개됐다(논문 번호 2605.30576). 에이전트가 새로운 행동을 시도해야 학습이 이뤄지지만, 이 탐색 과정에서 충돌이나 도로 이탈이 발생할 수 있다. 연구팀은 인식론적 불확실성(모델 지식 부족에서 오는 불확실성)과 우연적 불확실성(환경 자체의 고유 무작위성)을 모두 측정해 각각의 불확실성이 적응형 임계값을 초과할 때 전문가 조언을 자동으로 요청하는 메커니즘을 제안했다.

핵심 기술적 요소는 세 가지다. 첫째, 롤링 버퍼(rolling buffer)에서 도출된 적응형 임계값으로 에이전트의 자신감이 높아질수록 기준도 진화하게 설계했다. 둘째, 확률적 조기 종료(stochastic early-stop) 휴리스틱을 포함한 커밋-쿨다운 전략으로 조언 지속 시간과 빈도를 조절해 에이전트가 적절한 기동을 경험하되 전문가 조언 예산을 낭비하지 않도록 했다. 셋째, 전문가와 에이전트의 경험을 공유 리플레이 버퍼에 통합해 오프 정책 IQN(Implicit Quantile Network)을 효율적으로 훈련했다. CARLA 시뮬레이터 비신호 교차로 주행 실험에서 기준 IQN 대비 성공률 5~7% 향상과 실패 감소를 달성했다.

Through glass of crop anonymous male in casual clothes driving modern taxi car on road in daytime
사진: Tim Samuel / Pexels

이 연구는 자율주행 AI가 더 안전하고 효율적으로 학습하는 방법을 제시하며, 훈련 중 전문가 시스템(사람 운전자 또는 규칙 기반 플래너)을 최소한의 비용으로 활용하는 접근법을 정교화했다. 불확실성 인식 기반의 전문가 조언 통합 방식은 자율주행 외에도 의료 AI, 로봇 제어 등 안전이 중요한 도메인의 RL 훈련 설계에 적용될 수 있다.

Tags: CARLA강화학습불확실성추정자율주행전문가조언
STORIUM 편집부

STORIUM 편집부

STORIUM 편집부 공식 계정

Next Post
A modern toy robot standing on a gradient background, showcasing innovation and technology.

모델 라우팅·테스트 타임 스케일링 공동 최적화하는 UniScale 발표

답글 남기기 응답 취소

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다

STORIUM은 트렌드와 인사이트를 전하는 종합 뉴스 매체입니다. 정확성, 균형, 맥락의 편집 원칙으로 신뢰받는 뉴스를 전합니다.

카테고리

  • AI 모델·연구
  • AI 서비스·툴
  • 반도체·인프라
  • 빅테크·기업
  • 산업 적용
  • 스타트업·투자
  • 정책·윤리

태그

AI규제 AI보안 AI안전 AI에이전트 AI 에이전트 AI윤리 AI인프라 Anthropic AWS ChatGPT Claude Co-Scientist Gemini GPU IPO LLM MCP NVIDIA OpenAI 강화학습 거버넌스 구글 데이터센터 로봇 마이크로소프트 멀티모달 멀티에이전트 메타 반도체 벤치마크 보안 사이버보안 스타트업 아마존 앤트로픽 에이전트 엔비디아 엔터프라이즈 오픈AI 오픈소스 자율주행 제미나이 클라우드 클로드 허깅페이스

최근 뉴스

Visual abstraction of neural networks in AI technology, featuring data flow and algorithms.

구글 젬마 4, 멀티토큰 예측으로 추론 3배 빨라져

2026년 06월 02일 16시 10분
White robot toy casting a shadow in a dark studio setting, highlighting artificial intelligence.

피규어AI 휴머노이드, 일주일 넘게 택배 처리 라이브

2026년 06월 02일 15시 48분
  • 소개
  • 문의
  • 광고문의
  • 개인정보처리방침
  • 이용약관
  • 청소년보호정책

© 2026 STORIUM. All rights reserved. 트렌드와 인사이트.

No Result
View All Result
  • AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의

© 2026 STORIUM. All rights reserved. 트렌드와 인사이트.