재난 대피 시뮬레이션으로 VLM 운용자 통신 능력 평가하는 새 벤치마크

비전-언어 모델(VLM)이 재난 대피 상황에서 AI 운용자로서 민간인을 얼마나 효과적으로 안내할 수 있는지 평가하는 벤치마크 프레임워크가 새롭게 제안됐다. 연구진은 기존 자연어처리 분야의 위기 통신 연구가 정적인 텍스트 분류에 머물러 있었다는 점을 지적하며, 실제 공간 정보와 동적 위협이 결합된 시뮬레이션 환경에서 VLM의 성능을 측정하는 체계를 구축했다.

연구에서는 VLM 운용자에게 부여할 수 있는 핵심 변수 세 가지를 설정해 실험을 진행했다. 통신 전략은 특정 대상에게 맞춤 안내를 전달하는 방식(narrowcast)과 전체 대상에게 동시에 전달하는 방식(broadcast)으로 구분했고, 환경 표현 방식은 시각적 이미지 기반과 그래프 기반으로, 위협 행동은 정적 위협과 이동 위협으로 나눴다. 구조적 복잡도가 다른 9개의 지도에서 실험한 결과, 좁은 범위에 맞춤 안내를 전달하는 방식이 전체 난이도 구간에서 민간인 실패율을 일관되게 낮추는 것으로 나타났다.

환경 표현 방식도 결과에 큰 영향을 미쳤다. 시각 정보를 활용하는 방식이 성능을 주도한 반면, 인접 그래프를 추가하는 것은 모델에 따라 오히려 성능을 저하시키는 경우도 있었다. 이동하는 위협이 존재하는 경우에는 모든 조건에서 실패율이 상승했는데, 이는 VLM 운용자가 시간이 흐르면서 변화하는 상황에 맞춰 통신을 지속적으로 조정해야 한다는 점에서 난이도가 크게 높아지기 때문이다. 연구진은 VLM을 실제 대피 시나리오에 배치하는 것이 아직 쉽지 않은 과제임을 확인했으며, 통신 전략과 입력 표현 방식의 선택이 개입의 성패를 직접 결정할 수 있다고 밝혔다.

이 연구는 자연어 처리 분야에서 VLM의 역할을 정적 질의응답을 넘어 동적이고 체현된 시나리오로 확장하는 시도라는 점에서 의미가 있다. 재난 대응 AI 시스템의 신뢰성을 높이기 위해서는 공간적 맥락 파악과 상황 변화에 따른 통신 적응 능력이 함께 평가돼야 한다는 방향성을 제시한다.