프롬프트를 넘어 컨텍스트 엔지니어링으로, AI 에이전트 메모리 설계 실전 전략

AI 에이전트 시스템 설계의 초점이 단순 프롬프트 작성에서 체계적인 컨텍스트 엔지니어링으로 이동하고 있다. 15년 이상 분산 시스템을 다뤄온 컨플루언트(Confluent)의 아디 폴락(Adi Polak)은 인포큐(InfoQ) 발표를 통해 LLM(대규모 언어 모델)이 최선의 결정을 내리려면 단순히 더 나은 질문이 아니라 더 풍부하고 잘 구조화된 컨텍스트가 필요하다는 패러다임 전환을 설명했다. 역할 부여, 퓨샷 예시, 체인 오브 소트, 제약 설정이라는 네 가지 프롬프트 엔지니어링 범주는 여전히 유효하지만, 컨텍스트 엔지니어링은 이를 포괄하는 더 넓은 개념으로 메모리 관리, 상태 관리, RAG(검색 증강 생성), 도구 접근 및 실행까지 망라한다.

메모리는 단기와 장기 두 층위로 나뉜다. 단기 메모리는 진행 중인 대화 요약처럼 즉각적인 세션 맥락을 담고, 장기 메모리는 벡터 데이터베이스에 영구 저장돼 이후 검색에 활용된다. 상태 관리는 다단계 에이전트 루프에서 현재 진행 단계를 추적하는 역할을 한다. 가장 큰 과제는 컨텍스트 폭발 문제인데, 모든 이력을 매 LLM 호출마다 다시 구성해 전송하면 비용이 무한히 늘어나고 토큰 한계를 초과할 수 있다. 이를 해결하기 위해 계층적 요약, 하이브리드 검색, 동적 컨텍스트 압축, 도메인별 프롬프트 정제 같은 전략이 함께 사용된다.

폴락은 아파치 카프카(Apache Kafka)와 아파치 플링크(Apache Flink)라는 두 오픈소스 스트리밍 시스템을 에이전트 인프라로 재구성한 컨플루언트의 실제 아키텍처를 공유했다. 밀리초 수준 지연과 정확 일회 처리(exactly-once) 보장을 제공하는 플링크는 실시간 상태 관리 에이전트 루프에 적합하며, 카프카의 토픽 스토리지는 단기 캐시에서 오브젝트 스토리지 기반의 장기 이력까지 다층 메모리 체계를 형성한다. 카프카 커넥트를 통해 BigQuery, Salesforce, SAP 등 외부 시스템의 데이터를 실시간으로 컨텍스트에 주입할 수도 있다.

AI 에이전트를 프로덕션에 배포하는 팀이 직면하는 핵심 문제는 개별 LLM 호출 성능이 아니라 컨텍스트를 효율적으로 구성하고 상태를 지속적으로 관리하는 인프라 설계라는 점이 이 발표의 핵심 메시지다. 스트리밍 데이터 플랫폼과 에이전트 오케스트레이션의 결합은 대규모 AI 시스템 운영에서 상태 일관성과 비용 효율을 동시에 확보하는 방향으로 주목받고 있다.