시스코 AI, FAPO 공개…Claude Code로 LLM 파이프라인 프롬프트 자동 최적화

시스코 AI(Cisco AI)가 ‘FAPO(Fully Automated Prompt Optimization)’를 오픈소스로 공개했다. FAPO는 다단계 LLM 파이프라인을 초기 프롬프트에서 목표 정확도까지 자동으로 최적화하는 시스템으로, 클로드 코드(Claude Code) 에이전트가 전체 루프를 오케스트레이션한다. 라이선스는 Apache 2.0이며 코덱스(Codex)도 최적화 에이전트로 지원된다.

시스코의 평가에서 FAPO는 현재 최고 수준의 프롬프트 최적화 방법론인 GEPA(Generalized Evolutionary Prompt Architecture)와 비교해 18개 모델-벤치마크 조합 중 15개에서 더 나은 결과를 냈으며 평균 +14.1 퍼센트포인트(pp) 향상을 기록했다. 특히 파이프라인 구조 변경을 선택한 HoVer와 IFBench 벤치마크에서는 6개 쌍 모두에서 이겼으며 GEPA 대비 평균 +33.8pp의 격차를 냈다. 비교는 GPT-4.1-mini, GPT-5.4-mini, Gemma 3-12B 세 가지 태스크 모델과 6개 벤치마크에 걸쳐 이뤄졌으며, 클로드 오퍼스 4.6(Claude Opus 4.6)은 FAPO의 오케스트레이터와 GEPA의 리플렉터로 모두 활용됐다.

FAPO의 핵심 설계 원칙은 실패 귀인(failure attribution)이다. 다단계 파이프라인에서 최종 출력이 틀렸을 때 어느 단계가 원인인지를 규칙 기반 휴리스틱과 LLM 분석으로 분류한다. 실패는 검색 실패, 연쇄 실패, 형식 실패, 추론 실패 네 가지로 나뉜다. FAPO는 프롬프트 편집 → 파라미터 조정 → 체인 구조 변경의 세 단계를 순서대로 시도하며, 낮은 비용의 방법을 먼저 소진한 뒤에만 다음 단계로 올라간다. 과적합 방지를 위해 훈련 분할에서만 개별 케이스를 열람하고, 검증·테스트 분할은 집계 점수만 노출한다. 모든 변형 파일은 불변(immutable) 파일로 저장되며 독립적인 검토 에이전트가 각 제안을 사전 확인한다.

FAPO가 해결하려는 문제는 실제로 LLM 애플리케이션 개발자들이 공통으로 겪는 것이다. 프롬프트 문구를 약간만 바꿔도 정확도가 20%가량 달라질 수 있고, 여러 단계로 구성된 파이프라인에서는 오류가 어느 단계에서 비롯됐는지 추적하는 것 자체가 상당한 시간을 요구한다. FAPO는 이 탐색 작업을 에이전트에게 위임해 자동화하며, 특히 실패가 프롬프트 수준의 문제인지 파이프라인 구조 자체를 바꿔야 하는 문제인지를 자동으로 구분한다는 점이 기존 도구들과 다른 지점이다. DSPy, TextGrad, ProTeGi 등 기존 프롬프트 최적화 프레임워크들이 프롬프트 레벨 최적화에 머무는 것과 대비된다.

한국 AI 개발 생태계 관점에서 FAPO는 주목할 만한 실용 도구다. Apache 2.0 오픈소스 라이선스이므로 상업 활용이 자유롭고, 국내 LLM 서비스 개발팀이 멀티스텝 파이프라인 품질을 높이는 데 직접 도입할 수 있다. 다만 FAPO가 의존하는 클로드 코드 에이전트는 현재 국내에서의 접근성이 제한적일 수 있으며, 최적화 품질이 제공하는 데이터셋의 품질과 커버리지에 크게 좌우된다는 점은 주의해야 한다. 시스코 팀 자체 벤치마크 결과만 공개된 현 시점에서 독립적인 재현 연구가 이뤄지지 않았다는 한계도 있어, 즉각 신뢰하기보다 자체 파이프라인에 직접 테스트해 보는 접근이 권장된다.