시뮬레이션 사용자가 아닌 실제 행동 데이터로 개인화 의사결정 모델을 평가하는 벤치마크 BehaviorBench가 arXiv에 공개됐다. 기존 사용자 이해 벤치마크 다수가 모델 생성 또는 시뮬레이션 행동에 의존하는 반면, 이 연구는 공개 예측 시장 및 온체인 기록에서 지갑 단위 의사결정 이력을 재구성했다. 연구팀은 모델 기반 시뮬레이션이 실제 인간 행동과 체계적으로 괴리될 수 있다는 선행 연구의 경고를 기반으로 실측 데이터를 수집하는 방식을 택했다.
벤치마크는 두 가지 보완적 과제 계층으로 구성된다. 첫 번째는 신념 예측(Belief prediction)으로, 사용자가 특정 시장에서 최종 드러낸 입장과 신뢰 수준을 예측하는 과제다. 두 번째는 거래 예측(Trade prediction)으로, 개별 거래 방향과 금액을 예측한다. 평가 세트는 2,000개 지갑에서 수집한 141,445개의 신념 인스턴스와 1,485,972개의 거래 인스턴스로 구성되며, 검색 기반 평가를 위한 별도 지지 풀이 마련됐다.

실험에서는 프론티어 및 오픈웨이트 생성 모델들을 개인화 없는 기준선, 최근 이력 직접 제공, 생성된 사용자 프로필, 검색된 지지 지갑 증거 등 네 가지 이력 인터페이스 조건 아래 평가했다. 개인화는 신념 예측에서 더 일관되게 성능을 높였으며, 거래 예측에서는 효과가 불규칙했다. 또한 모델 순위는 과제 계층과 평가 지표에 따라 달라졌고, 서로 다른 이력 인터페이스는 각기 다른 실패 양상을 드러냈다.
BehaviorBench는 개인화 방법론이 시뮬레이션이 아닌 실제 행동 증거를 얼마나 잘 활용할 수 있는지를 측정하는 평가 환경을 제공한다는 데 의의가 있다. 연구팀은 이 벤치마크가 시뮬레이션 사용자에만 의존하지 않고 실제 행동 증거를 활용하는 개인화 연구의 평가 토대가 되기를 기대한다고 밝혔다.














