약물-질병 관계 적용 조건 자동 추출 AI 연구, 1119쌍 데이터셋 공개

약물이 특정 질병에 치료 효과를 갖는 조건을 의료 문헌에서 자동으로 추출하는 새로운 자연어 처리(NLP) 방법론이 arXiv에 공개됐다(논문번호 2606.14031, 제출일 2026년 6월 12일). 연구팀은 치료 약물-질병 관계의 단순 존재 여부를 넘어, ‘어떤 조건에서 해당 관계가 적용되는지’를 추출하는 과제를 새롭게 정의하고 첫 번째 벤치마크 데이터셋을 함께 제시했다. 데이터셋은 의생명 논문 초록에서 수동 주석한 약물-질병-적용 조건 트리플(triple) 형태로 구성되며 약물-질병 쌍 1,119건을 포함한다.

기존 의생명 정보 추출 연구 대부분은 약물과 질병 사이의 관계 자체를 식별하는 데 집중해왔고, 그 관계가 실제로 성립하는 맥락 조건은 크게 다루지 않았다. 연구팀은 이 공백을 지적하며, 특정 환자군, 병기, 병용 금기 등 관계 적용 범위를 한정하는 조건 정보가 임상 의사결정 지원 시스템의 품질을 높이는 데 결정적이라는 점을 근거로 삼았다. 연구팀은 다양한 기존 방법론의 성능을 해당 데이터셋으로 체계적으로 평가했으며, 나아가 약물-질병 관계를 명시적으로 반영하도록 LoRA(저랭크 적응 파인튜닝)를 개선한 새로운 방법론을 제안했다. 이 방법론은 여러 평가 설정에서 강력한 기준선들을 일관되게 상회했다고 논문은 밝혔다.

a close up of a computer screen with a line of ecg — 사진: Joshua Chehov / Unsplash

의료 AI 분야에서 약물-질병 관계 추출은 전자 건강 기록 분석, 약물 부작용 모니터링, 임상 가이드라인 구조화 등 다양한 하위 응용과 연결되는 핵심 과제다. 이번 연구가 제안한 적용 조건 추출 과제는 기존 관계 추출보다 한 단계 더 정밀한 지식 표현을 목표로 하며, 생성형 AI 기반 의료 보조 도구의 신뢰성 향상에도 기여할 수 있는 방향으로 평가된다. 소스 코드와 데이터셋은 논문 내 링크를 통해 공개될 예정이다.