소형 모델 4개로 금융 드라마 시뮬레이션 — 다중 에이전트 설계 교훈

허깅페이스가 주관한 ‘Build Small 해커톤’에서 OpenAI·NVIDIA·OpenBMB·Qwen 네 개 기관의 소형 언어 모델이 동시에 가동되는 멀티에이전트 금융 시뮬레이션이 개발됐다. ‘Thousand Token Wood v2’라 불리는 이 프로젝트는 숲속 생물 캐릭터들이 각자 다른 소형 모델의 두뇌로 금융 거래를 벌이는 게임으로, 플레이어가 내부자 정보를 활용해 시장을 조작하는 역할을 맡으면 판사 캐릭터가 추적하는 구조를 띤다. v2에서는 gpt-oss-20b(OpenAI), MiniCPM3-4B(OpenBMB), Nemotron-Mini-4B(NVIDIA), 자체 파인튜닝한 Qwen 0.5B 등 네 모델이 각각 서로 다른 캐릭터를 구동하며, 참가자는 이 이종 구성이 신기함을 위한 것이 아니라 참가자들이 실제로 다르게 행동해야 시장 역학이 흥미로워진다는 전제에서 출발했다고 밝혔다.

네 모델을 단일 플랫폼에 올리는 과정에서 드러난 핵심 교훈은 병목이 모델 자체가 아니라 서빙 계층에 있다는 점이었다. 당시 vLLM 0.22.1 버전은 로드 시 JIT 커널 컴파일을 수행하는 과정에서 CUDA 툴킷이 필요한데, 경량 베이스 이미지에는 이것이 없어 네 모델 전부가 동일한 오류로 기동에 실패했다. CUDA 개발자 이미지로 교체하는 단 한 번의 수정으로 모든 모델이 정상 가동됐다. gpt-oss-20b는 24GB L4 GPU에서 MXFP4 양자화로 운용됐고, MiniCPM3는 원격 코드 신뢰 설정이 필요했으며 Nemotron은 별도 설정 없이 로드됐다. 이처럼 모델별로 한 줄짜리 설정 차이가 있었지만, 각 모델 출력을 JSON으로 변환하고 손상된 부분을 자동 복구하는 공통 파서 계층을 한 번만 구축하면 이후 모델 추가는 설정 항목 하나를 추가하는 수준으로 단순해졌다고 개발자는 설명했다.

a close-up of a computer — 사진: Ian Talmacs / Unsplash

정보 보안 설계도 주목할 만하다. 게임의 핵심 장치인 내부자 팁은 ‘참’과 ‘거짓’ 두 종류인데, 캐릭터가 이 진위 여부를 알면 게임이 성립하지 않는다. 개발자는 진위 플래그를 프롬프트 밖의 플레이어 원장에만 보관하고 공개 이벤트 기록에서 완전히 제거했으며, 매 턴마다 모든 캐릭터의 프롬프트 전체를 스캔해 금지 토큰이 포함됐는지 검사하는 자동화 테스트를 구현했다. 실행 결과 전체 프롬프트 스캔에서 팁 진위 정보 누출이 단 한 건도 발생하지 않았다. 캐릭터 기억은 정수 감정 지표에서 파생된 한 줄짜리 요약문만 프롬프트에 노출하고 원본 이력은 추적 용도로만 보관해 프롬프트 비대화를 방지했다. 파인튜닝된 0.5B 모델은 자기 자신에게 거래를 제안하는 오류율 0%, 유효 제안 생성률 100%를 기록해 3B 교사 모델을 넘어서는 안정성을 보였다고 개발자는 덧붙였다.

이번 사례는 소형 모델이 복잡한 멀티에이전트 시스템에서도 충분한 역할을 할 수 있음을 보여주는 실증이다. 개발자는 소형 모델이 신뢰할 수 있는 형식 생성기이지만 추론 능력은 불안정하며, 이 간극을 규모 확대가 아닌 구조화·프롬프트 설계·소규모 파인튜닝으로 메울 수 있다고 결론지었다. 이종 모델 구성이 동종 구성보다 흥미로운 결과를 만들어내며, 추가 비용은 서빙 계층이 안정화된 이후에는 설정 파일 수정 수준에 불과하다는 점에서 실용성도 높다는 평가다. 전체 코드와 실행 추적 데이터는 오픈소스로 공개됐다.