ArogyaSutra, 인도어 기반 멀티모달 의료 추론 다중 에이전트 프레임워크 제안

연구팀이 인도어 환경에서의 의료 AI 접근성 격차를 해소하기 위한 데이터셋과 프레임워크를 함께 발표했다. 범용 도메인에서는 성능을 보이는 MLLM(멀티모달 대규모 언어 모델)이 의료처럼 특화된 환경, 특히 다언어·저자원 시나리오에서는 여전히 한계를 드러낸다는 문제의식에서 출발한 연구다. 인도 농촌 지역 환자들은 복잡한 의료 질의를 모국어로 표현하고 의료 영상 등 멀티모달 입력에 의존하는 경우가 많은데, 영어 중심 모델들은 이러한 사용 환경을 제대로 지원하지 못했다.

연구팀은 먼저 대규모 다언어 멀티모달 의료 질문-답변 데이터셋인 ArogyaBodha를 구축했다. 이 데이터셋은 8개의 이질적인 출처에서 수집됐으며, 신체 31개 부위 시스템, 6개 영상 모달리티, 21개 임상 도메인을 아우르는 영어 및 7개 주요 인도어를 포함한다. 이를 바탕으로 제안된 ArogyaSutra는 액터-크리틱(actor-critic) 기반의 다중 에이전트 프레임워크로, 도구 그라운딩과 이중 메모리 메커니즘을 결합해 단계별 추론 인식 의사결정을 수행한다. 저장된 시뮬레이션 궤적을 활용한 지식 증류(distillation) 방식도 채택했다.

Female doctor with curly hair in lab coat using tablet, wearing a mask. — 사진: Polina Tankilevitch / Pexels

실험 결과, ArogyaBodha 데이터셋과 ArogyaSutra 프레임워크는 모든 인도어에 걸쳐 다언어 의료 추론 정확도를 향상시켰으며, 각 구성 요소의 기여도는 어블레이션(ablation) 실험으로 검증됐다. 소스 코드와 데이터셋은 공개 저장소를 통해 접근할 수 있다. 이 연구는 영어 중심 AI 의료 시스템이 간과해 온 비영어권 저자원 환경에서의 공평한 의료 AI 접근성 확보라는 문제에 실질적인 해법을 제시한다는 점에서 주목받고 있다.

저자원 언어와 의료 분야를 동시에 다루는 멀티모달 AI 연구는 AI의 혜택을 더 많은 인구에게 확대하는 데 중요한 역할을 한다. 인도는 14억 명이 넘는 인구와 수십 개의 공식 언어를 보유한 국가로, 이 연구에서 구축한 데이터셋과 프레임워크가 인도 외 다른 저자원 언어권 의료 AI 연구로 확장될 가능성도 있다.