수술실 내 의료진의 활동을 AI로 이해하고 지원하려면 누가 언제 무엇을 했는지 세밀하게 파악해야 한다. 하지만 수술실은 물체가 어수선하게 놓이고 가림 현상이 잦으며 센싱 환경이 제한적이라 행동을 정밀하게 인식하기가 어렵다. 기존 연구는 장면 그래프(scene graph)를 이용해 프레임 단위 관계를 예측하는 방식에 집중해 왔으나, 이를 시간적으로 연장된 행동 단위로 변환하는 것은 어렵다. 연구팀은 이 문제를 해결하기 위해 수술실 특화 행동 인식 벤치마크 OR-Action을 제안했다.
OR-Action은 공개된 자아 중심·외부 시점 병합 수술실 데이터셋을 기반으로 구축됐다. 세밀하고 다중 역할을 반영하는 행동 분류 체계를 정의하고, 장면 그래프 상태 변화로부터 밀도 높은 행동 구간을 자동으로 생성하는 증류 방식을 적용했다. 이 벤치마크에서 현재 장면 그래프 예측 방식을 평가한 결과, 그래프 신경망(GNN)을 추가해 명시적 시간 모델링을 적용하더라도 시간 구조를 충분히 포착하지 못하는 것으로 나타났다.

연구팀은 이 한계를 극복하기 위해 영상만을 입력으로 사용하는 시간적 모델을 새로 도입했다. 이 모델은 모든 자아 중심 영상을 입력으로 활용할 때 그래프 기반 방법보다 유의미하게 높은 성능을 보였다. 나아가 멀티 뷰에서 단일 뷰로의 특징 정렬 전략도 함께 제안해, 광범위한 자아 중심 영상 촬영 없이도 단일 카메라 환경에서 다중 역할 행동 인식 성능을 높이는 방법을 제시했다.
수술실 AI 지원 시스템은 워크플로 분석, 합병증 조기 감지, 인력 관리 등 다양한 응용으로 이어질 수 있다. OR-Action 벤치마크와 코드는 논문 승인 후 공개될 예정으로, 의료 현장 AI의 시간적 이해 수준을 높이는 연구 기반이 될 것으로 기대된다.














