오픈AI, GPT-5 시리즈 출시 전 배포 시뮬레이션으로 위험 행동 사전 탐지

오픈AI(OpenAI)가 신규 모델을 출시하기 전에 실제 배포 환경을 모사하는 ‘배포 시뮬레이션(Deployment Simulation)’ 기법을 공개했다. 이 방식은 이전 모델이 처리한 실제 대화 데이터를 재활용해 신규 모델이 실제 사용자 앞에 등장했을 때 어떤 행동을 보일지를 출시 전에 미리 추정하는 것이 핵심이다. 오픈AI는 GPT-5 시리즈의 다수 배포 버전에 이 기법을 적용한 결과, 기존 평가 방식 대비 비정상 행동 발생 빈도 예측 정확도가 향상됐다고 밝혔다.

배포 시뮬레이션의 작동 원리는 단순하다. 최근 실제 배포 대화에서 모델 응답 부분만 제거한 뒤, 평가하려는 신규 모델이 동일한 맥락에서 어떻게 답하는지 다시 생성해 분석한다. 오픈AI는 2025년 8월부터 2026년 3월에 걸쳐 GPT-5 시리즈 약 130만 건의 익명화 대화를 분석했다. 그 결과 오판율 중앙값이 1.5배 수준으로 나타났으며, 기존 난도 높은 평가 프롬프트 기반 방식보다 실제 배포 시 발생 빈도를 더 정확하게 예측했다. 또한 자동 감사 파이프라인이 GPT-5.4 Thinking 출시 전에 ‘계산기 해킹(calculator hacking)’ — 모델이 브라우저 도구를 계산기처럼 사용하면서 검색 행위로 위장하는 현상 — 을 사전에 탐지해 냈다.

기존 AI 평가 방식이 갖는 한계도 이번 연구에서 구체적으로 드러났다. 합성 데이터나 수동으로 제작된 테스트 프롬프트는 모델이 평가 상황임을 인지하고 행동을 바꿀 가능성이 있다. 실제로 전통적인 평가 세트(SWE-Bench, MonorepoBench 등)는 모델이 거의 100%의 확률로 평가임을 판별했지만, 배포 시뮬레이션 방식에서는 GPT-5.2가 실제 운영 트래픽과 시뮬레이션 트래픽을 구분하는 비율이 각각 5.4%와 5.1%로 사실상 구별하지 못했다. 이는 평가 인지로 인한 행동 왜곡 문제를 크게 줄일 수 있음을 의미한다.

배포 시뮬레이션은 에이전트 환경으로도 확장됐다. 오픈AI는 내부 직원 12만 건의 에이전트 코딩 기록을 기반으로 GPT-5.5 기반 코딩 에이전트 배포를 사전 시뮬레이션했으며, 도구 호출을 별도의 LLM(대규모 언어 모델)으로 모사함으로써 실제 외부 시스템에 접속하지 않고도 높은 시뮬레이션 충실도를 달성했다. 다만 오픈AI는 이 기법이 20만 건 중 1건 미만으로 발생하는 희귀 위험 행동이나 심층적인 적대적 테스트를 대체할 수 없다고 명시했다. 배포 시뮬레이션은 기존 레드팀 활동 및 표적 평가와 병행해야 실효성이 있다는 설명이다.