No Result

View All Result

No Result

View All Result

No Result

View All Result

Home Tag 벤치마크

[태그:] 벤치마크

의료 AI의 답변 정답률이 아니라 안전 경계 실패를 분류한 공개 벤치마크 MedFailBench

작성: 유지율 리포터

2026년 07월 24일 03시 09분

의사가 검토한 합성 의료 사례로 안전 경계 실패를 분류하는 공개 벤치마크가 나왔다. 공개판 사례 수는 메타데이터와 본문이 서로 다르다.

같은 믿음도 표현 방식에 따라 LLM 수용이 달라졌다…EoB 벤치마크의 4개 언어축

작성: 유지율 리포터

2026년 07월 22일 02시 10분

ACL 2026 발표 논문은 믿음 표현의 형식·증거성·인식적 태도·어조를 바꿔 LLM의 문맥 수용 차이를 비교했다. 본문과 초록의 유형·모델 수 불일치도 함께 ...

Beijing Institute for General Artificial Intelligence BIGAI 공식 로고

VLM 기반 가정형 에이전트의 공간관계 안전을 시험한 507문항 벤치마크

작성: 유지율 리포터

2026년 07월 20일 18시 41분

가정 환경의 지지·포함·근접 관계가 과정 안전에 미치는 영향을 묻는 507문항 벤치마크가 나왔다. 7개 VLM 기반 에이전트에서 작업 성공과 안전 준수의 ...

MemOps 프로젝트를 개발한 MemTensor의 공식 로고

MemOps, 장기 대화 기억을 5개 생애주기 연산으로 평가…장문서 궤적 복원 취약

작성: 유지율 리포터

2026년 07월 15일 23시 08분

MemOps가 2006개 QA를 기억·망각·갱신·성찰·연산 궤적으로 나눠 장기 대화 에이전트의 실패 원인을 진단했다.

PM-Bench 연구진이 소속된 UCLA 캠퍼스 전경

PM-Bench, LLM 에이전트의 ‘나중에 할 일’ 수행 능력 측정한다

작성: 유지율 리포터

2026년 07월 15일 15시 24분

UCLA 연구진이 7일 일정과 81개 실행 과제로 LLM 에이전트의 전향 기억, 갱신 대응, 과잉 실행을 함께 평가했다.

Tsinghua University, Shenzhen International Graduate School, Shenzhen Key Laboratory of Ubiquitous Data Enabling 공식 로고 — 상보적 선형 베이스를 적응적으로 라우팅하는 시계열 예측 모델 GatedLinear 연구진 소속기관

GatedLinear 시계열 예측, 세 선형 베이스 라우팅으로 평균 오차 비교

작성: 유지율 리포터

2026년 07월 14일 12시 10분

추세·차분·위상 반복 선형 베이스를 시점과 변수별로 라우팅해 여덟 시계열 벤치마크의 평균 오차를 비교했다.

Shanghai Artificial Intelligence Laboratory 공식 로고

OmniMapBench, 지도 문서 2,096문항 공개…최고 모델 정확도 75.03%

작성: 유지율 리포터

2026년 07월 14일 11시 55분

지도 이미지 1,603장과 수작업 문항 2,096개로 구성한 벤치마크에서 최고 모델도 정확도 75.03%에 머물렀다.

애플 공식 로고

이미지를 보고 500개 도구를 호출하는 에이전트, 최고 성공률도 50% 미만

작성: 유지율 리포터

2026년 07월 14일 10시 08분

MM-ToolSandBox가 다중 이미지·다중 대화·상태 변화를 묶어 시각 기반 도구 호출 에이전트 12종의 실패 원인을 측정했다.

Systrion AG 공식 로고

REFORGE, 역공학 LLM 평가의 생존편향 지적…고신뢰 함수 수율 87.2%→65.9%

작성: 한이준 리포터

2026년 07월 14일 07시 58분

REFORGE는 컴파일 최적화가 함수 정답 정렬을 훼손해 LLM 역공학 성능 저하가 과장될 수 있음을 통제된 합성 마이크로벤치마크로 보였다.

오픈AI 샌프란시스코 본사

SWE-Bench Pro 30% 결함, 흔들리는 AI 벤치마크 신뢰

작성: 이국환 편집인

2026년 07월 12일 00시 22분

오픈AI가 코딩 벤치마크 SWE-Bench Pro의 과제 약 30%를 결함으로 판정하고 보증을 철회했다. 수치가 곧 마케팅이 된 시대에 무엇을 믿어야 하는지 ...

스마트폰 화면에 표시된 AI 챗봇 인터페이스

오픈AI, ‘SWE-벤치 프로’ 30% 결함…벤치마크 신뢰 흔들

작성: 한이준 리포터

2026년 07월 11일 11시 18분

오픈AI가 널리 쓰이는 AI 코딩 벤치마크 SWE-벤치 프로 과제의 약 30%가 결함이라며 지지를 철회했다.

과학 아이디어의 계보 추론 시험하는 IdeaGene-Bench — arXiv 2607.08758 논문 원문 연구 도식

과학 아이디어의 계보 추론 시험하는 IdeaGene-Bench

작성: 서아라 리포터

2026년 07월 10일 23시 36분

IdeaGene-Bench가 논문 아이디어의 상속·변형·결합 계보를 구조화해 AI 과학자의 추론과 제안 생성을 평가한다.

Page 1 of 8 1 2 … 8 다음

STORIUM은 트렌드와 인사이트를 전하는 종합 뉴스 매체입니다. 정확성, 균형, 맥락의 편집 원칙으로 신뢰받는 뉴스를 전합니다.

카테고리

최근 뉴스

엔비디아·37개 창립 파트너, Open Secure AI Alliance 출범

2026년 07월 28일 19시 45분

미국 연방 로비가 이뤄지는 워싱턴 의사당 공식 사진

미 주요 기술·AI 기업·단체 11곳, 상반기 로비 4,180만달러

2026년 07월 28일 18시 46분

주소: 경기 고양시 덕양구 꽃마을로 66, 한일미디어타워 15층
상호: 스토리움 | 사업자등록번호: 579-27-02025 | 대표자: 이국환
발행·편집인: 이국환 | 청소년보호책임자: 이국환 | 발행일자: 2025.01.01
스토리움의 모든 콘텐츠는 저작권법의 보호를 받는 바, 무단 전재·복사·배포 등은 법적 제재를 받을 수 있습니다.
© 2026 STORIUM. All Rights Reserved.

No Result

View All Result

주소: 경기 고양시 덕양구 꽃마을로 66, 한일미디어타워 15층
상호: 스토리움 | 사업자등록번호: 579-27-02025 | 대표자: 이국환
발행·편집인: 이국환 | 청소년보호책임자: 이국환 | 발행일자: 2025.01.01
스토리움의 모든 콘텐츠는 저작권법의 보호를 받는 바, 무단 전재·복사·배포 등은 법적 제재를 받을 수 있습니다.
© 2026 STORIUM. All Rights Reserved.