LLM(대규모 언어 모델) 기반 에이전트는 이제 회의 보조, 임상 문서화 시스템 같은 인간 간 상호작용 환경에서도 배포된다. 이런 환경에서 에이전트는 다수 참여자의 대화를 관찰하고 이후 질의를 위해 정보를 보유해야 한다. 기존 기억 벤치마크는 단일 사용자·텍스트 전용 상호작용에 집중돼 있어, 다중 참여자 환경의 멀티모달 특성, 대명사 및 지시 표현(deixis·anaphora) 같은 복잡한 담화 현상, 참여자 간 비동기·충돌 정보 등 실제 환경의 과제를 반영하지 못했다. 연구진은 이 공백을 채우기 위해 H2HMem(Human-to-Human Multimodal Memory Benchmark)을 개발했다.
H2HMem은 양자 대화와 다자간 대화를 모두 포함하고 멀티모달 정보 흐름을 통합하며, 기억 회상·추론·적용 세 가지 차원에서 에이전트를 평가한다. 최신 에이전트를 대상으로 한 실험에서는 모달리티 간, 참여자 간, 세션 간 기억 구성·보유·활용 능력에 상당한 한계가 드러났다. 연구진은 현재 LLM 에이전트가 복잡한 인간 간 상호작용 상황에서 기억 관련 과제를 수행하는 데 여전히 큰 개선 여지가 있음을 보였다고 밝혔다.

이 벤치마크가 주목받는 이유는 AI 에이전트의 실용 배치 환경이 단순한 1대1 대화를 넘어 점점 복잡한 다자간·멀티모달 맥락으로 확장되고 있기 때문이다. 회의록 작성, 의료 상담 기록, 법정 속기 지원 등 고부가 응용 분야에서 에이전트가 신뢰받으려면 긴 세션에 걸쳐 정확한 기억을 유지하고 여러 참여자의 발언을 구분·추론하는 능력이 필수다. H2HMem은 이 능력을 체계적으로 측정하는 공개 기준이 될 전망이다.














