LLM(대규모 언어 모델) 에이전트가 배포된 이후 아무런 외부 감독 신호 없이 스스로 스킬을 쌓고 성능을 높이는 프레임워크가 제안됐다. 연구팀이 arXiv에 공개한 ‘OpenSkill’은 오픈 월드 자기 진화(open-world self-evolution) 문제를 다룬다. 기존의 자기 학습 에이전트 연구는 이미 정제된 스킬 데이터, 성공한 실행 궤적, 또는 검증기 신호 중 하나 이상이 주어진다고 가정했지만, 실제 배포 환경에서는 이 중 어느 것도 제공되지 않고 오직 태스크 프롬프트만 주어지는 경우가 많다는 것이 연구팀의 출발점이다.
OpenSkill은 이 문제를 세 단계로 풀어낸다. 먼저 문서·리포지터리·웹 등 오픈 월드 자원에서 근거 지식과 검증 앵커를 수집한다. 다음으로 이를 전이 가능한 스킬로 합성하고, 마지막으로 목표 태스크의 정답 없이 자체 구축한 가상 태스크에 맞춰 스킬을 정제한다. 오픈 월드 자원이 학습 지식과 감독 독립적 연습 환경을 동시에 제공하는 구조로, 목표 태스크 감독은 최종 평가에만 사용된다. 실험에서 OpenSkill은 세 가지 벤치마크와 두 가지 타깃 에이전트에서 최고 자동화 통과율을 기록했으며, 구축된 스킬은 모델별 추가 조정 없이 다른 모델로도 전이됐다.
이 연구가 주목받는 이유는 실제 운영 환경의 제약을 직접 설정으로 삼았기 때문이다. 기업이나 개인이 LLM 에이전트를 배포한 뒤 지속적인 레이블 작업이나 전문 검증기 구축 없이도 에이전트 성능이 자동으로 향상될 수 있다는 가능성을 열어준다. 자기 구축 검증기가 외부 정답에 접근하지 않고도 실제 결과와 일치하는 판단을 내렸다는 점도 눈여겨볼 대목으로, 자율 에이전트의 실용적 배포 가능성을 한 단계 높이는 연구로 평가된다.














