LLM(대규모 언어 모델)과 자동 평가 시스템을 결합해 알고리즘, 수학적 증명, 설계 방안 등을 자동으로 발견하는 AI 기반 연구 자동화 시스템(ADRS, AI-Driven Research Systems)의 거동을 체계적으로 분석하는 프레임워크 GAMBLe이 arXiv에 발표됐다(arXiv:2606.02863). ADRS는 최근 여러 도메인에서 빠르게 도입되고 있지만, 이를 분석하기 위한 도구는 개발 속도를 따라가지 못하고 있다는 문제의식에서 이 연구가 시작됐다.
GAMBLe은 ADRS의 동작을 네 가지 파라미터로 분해한다. 생성기(G, generator), 평가기(A, assessor), 탐색 메커니즘(M, discovery mechanism), 예산(B, budget)이 그것이다. 여기에 생성기와 평가기의 합성인 ‘유효 탐색 공간(L_eff = A∘G)’이라는 핵심 개념을 도입해, 생성기-평가기 쌍의 조합에 따라 같은 문제라도 최적화 지형이 구조적으로 달라진다는 점을 드러낸다. 연구팀은 760회 이상의 반복 실행(누적 4만 6,000회 이상의 반복)을 통해 단일 LLM부터 동적 적응 앙상블까지 다양한 생성기와 탐욕 선택부터 공진화 메타 탐색까지 다양한 메커니즘을 세 가지 NP 난이도 문제에 적용했다.
실험 결과는 직관에 반하는 발견을 담고 있다. 프론티어 모델이 오픈소스 모델보다 성능이 낮을 수 있고, 가장 단순한 메커니즘이 최신 메타 탐색보다 우수한 경우도 있었다. 생성기나 메커니즘의 전체적 우위 순서는 존재하지 않았다. 단, 제한된 예산(실행당 60회 반복) 내에서도 올바른 구성 요소를 선택하면 성능이 13~67% 향상되고 탐색 효율이 6~39배 개선되는 것으로 나타났다.
이 프레임워크는 ADRS를 연구하거나 개발하는 팀이 임의적인 설계 선택을 피하고 구성 요소 간 상호작용을 사전에 분석할 수 있는 이론적 기반을 제공한다는 점에서 의미가 있다. 연구진은 기존의 수렴 보장 이론이 ADRS 과정에서 성립하지 않는 구조적 전제를 포함하고 있다고 지적하며, 표준 수렴 이론에 의존하지 않는 별도의 분석 도구가 필요하다고 주장했다.














