마이크로소프트와 중국 세 개 대학의 공동 연구팀이 ‘SkillOpt’라는 새로운 방법론을 공개했다. AI 에이전트가 참조하는 ‘스킬 문서’를 모델 가중치처럼 최적화해 GPT-5.5의 절차적 과제 평균 점수를 약 23점 높이는 데 성공했다. 핵심은 별도의 파인튜닝 없이 300~2,000 토큰 분량의 마크다운 파일 한 장만으로 이 성과를 냈다는 점이다.
SkillOpt는 학습 대상 모델을 고정한 채 별도의 옵티마이저 언어 모델이 에이전트 실행 로그를 분석하고 스킬 문서를 반복 편집하는 구조다. 각 편집 제안은 별도의 검증 세트에서 성능이 개선됐을 때만 반영되고, 거절된 편집은 버퍼에 쌓여 이후 학습의 부정 사례로 활용된다. 편집 허용 횟수에 상한을 두는 ‘학습률’ 개념을 텍스트 수준에서 구현했으며, 에포크 말미에는 안정적인 편집 방향을 장기 보존하는 느린 갱신도 적용했다. 옵티마이저는 학습 단계에서만 실행되고 추론 시에는 완성된 마크다운 파일만 목표 모델에 전달된다.

연구팀은 검색, 스프레드시트 편집, 문서 분석, 수학, 구현 행동 등 여섯 개 벤치마크에서 GPT-5.5와 Qwen3.5-4B를 포함한 일곱 개 모델을 대상으로 실험했다. 수작업으로 작성한 스킬, 언어 모델이 단번에 생성한 스킬, TextGrad·GEPA·EvoSkill 같은 특화 방법론과 비교했을 때 SkillOpt는 모든 조합에서 최상위 또는 동등한 성능을 기록했다. 특히 엄격한 출력 형식과 도구 사용이 요구되는 스프레드시트 편집 과제에서 개선 폭이 가장 컸으며, 소형 모델도 동등한 혜택을 받았다. 이는 절차적 지식이 부족한 모델일수록 잘 다듬어진 스킬 문서의 효과가 크다는 것을 의미한다.
전이성(transferability)도 주목할 만한 결과다. 더 큰 모델에서 학습된 스킬이 같은 계열의 소형 모델 성능도 끌어올렸고, Codex 환경에서 최적화한 스프레드시트 스킬이 Claude Code 환경에 그대로 적용됐을 때도 Claude Code에서 직접 학습한 스킬과 동등한 수준을 달성했다. 완성된 스킬 문서는 4회 학습 에포크에서 1~4건의 편집만으로 구성되는 등 매우 간결하다. 연구팀은 자동 채점이 어려운 개방형 과제나 다양한 도메인을 포괄하는 스킬 라이브러리 구성은 현재 방법론의 한계라고 인정했다. SkillOpt는 모델 가중치를 전혀 건드리지 않고 텍스트 파일 하나만 바꾸는 방식으로 성능을 높인다는 점에서, 강화학습으로 가중치를 갱신하는 기존 자기개선 접근법과 차별화된다.














