GEPA로 프롬프트 자동 진화시키기, 반성적 최적화 실전 가이드

프롬프트 최적화를 수작업 반복에서 자동화된 진화 과정으로 전환하는 GEPA 프레임워크의 실전 활용 방법이 공개됐다. GEPA는 프롬프트를 반성적으로 진화시키는 최적화 프레임워크로, 언어 모델이 과제를 수행하는 동안 평가기(evaluator)가 채점과 구조화된 피드백을 생성하고, 별도의 반성 모델(reflection model)이 그 피드백을 바탕으로 더 나은 프롬프트 후보를 제안하는 방식으로 작동한다. 작업 모델에는 소형 LLM(대규모 언어 모델)을, 반성 모델에는 더 강력한 모델을 사용해 비용과 성능을 균형 있게 배분하는 구조를 택했다. 이번 튜토리얼에서는 단순 산술 문장 문제 풀이를 기준 과제로 삼아 전체 워크플로를 구현했다.

실습은 크게 네 단계로 구성된다. 먼저 할인 계산·이동 거리·지갑 잔액·연쇄 연산 등 네 가지 유형의 산술 문제 18개를 결정론적으로 생성하고, 12개를 학습용으로, 6개를 검증용으로 분리해 벤치마크를 구성한다. 다음으로 평가기를 정의하는데, 최종 답변이 정해진 포맷으로 출력됐는지와 수치 정확성을 각각 채점해 1.0·0.5·0.0 세 단계 점수를 부여하고, 오답 유형별로 추론 오류인지 형식 위반인지를 구체적으로 적시한 피드백을 함께 반환한다. 이 구조화된 피드백이 GEPA 반성 모델이 다음 프롬프트 후보를 개선하는 데 필요한 실질적 단서가 된다. 마지막으로 단순한 시드 프롬프트에서 출발해 GEPA가 지시문과 출력 형식 규칙을 함께 진화시키도록 설정하고 최적화를 실행한다.

A colorful close-up of crystals showcasing refraction and vibrant hues. — 사진: Merlin Lightpainting / Pexels

최적화 실행이 끝나면 GEPA가 찾아낸 최적 프롬프트를 학습에 사용되지 않은 검증 세트에 적용해 성능 향상이 실제로 일반화되는지 확인할 수 있다. 진화 이력 로그에는 각 후보 프롬프트의 검증 점수와 부모 후보 정보가 기록돼 어떤 방향의 수정이 성능 개선에 기여했는지 추적 가능하다. 이 접근법은 특정 도메인이나 과제에 국한되지 않고, 명확히 정의된 평가 기준과 피드백 구조를 갖춘 어떤 언어 모델 과제에도 적용할 수 있다는 점에서 프롬프트 엔지니어링 자동화의 실용적 방향을 제시한다.