상관관계는 인과관계가 아니다: 개인 인과 발견을 위한 메타데이터 임베딩 연구

기성 생의학 언어 모델이 실제로 인과 관계가 없는 개념 쌍에 대해서도 매우 높은 유사도 점수를 반환한다는 문제를 지적하고, 이를 교정하는 방법을 제안한 논문이 발표됐다. 연구팀은 사전 학습된 생의학 인코더 모델 여러 종을 평가한 결과, 이들이 서로 다른 도메인에 속하는 무관한 개념 쌍에 대해 0.76에서 0.92 사이의 코사인 유사도를 반환하며 도메인 간 판별 정확도가 0%에 달한다는 점을 확인했다. 1.0이 완전 동일을 의미하는 척도에서 이 수준의 유사도는 임베딩 기반 추론 시스템에 심각한 오류를 유발할 수 있다.

연구팀이 주목한 것은 LBM(Large Behavioural Model), 즉 특정 문장이 아닌 한 사람의 일상 데이터를 대상으로 하는 파운데이션 모델의 맥락이다. LBM은 사용자 생활 기록을 그래프로 구성하고 임베딩 근접성을 인과 관계의 증거로 활용하는데, 거짓 근접성이 거짓 인과 엣지를 생성하면 이후 모든 추론이 잘못된 전제 위에 쌓인다. 일반 검색 시스템은 하위 언어 모델이 노이즈를 걸러낼 수 있지만, LBM 환경에서는 임베딩 기하학이 정확성 그 자체가 된다.

연구팀은 두 단계의 교정 방법을 제시했다. 먼저 72,034개 쌍에 대한 대조 학습 패스를 통해 PubMedBERT의 BIOSSES 상관계수를 0.633에서 0.828로 끌어올리고, 도메인 내외 분리 비율을 1.05배에서 1.63배로 개선했다. 이어 생의학 지식 그래프에서 부재하는 엣지를 활용해 어려운 부정 샘플을 채굴하는 BODHI 방법으로 분리 비율을 2.30배, 판별 격차를 +0.392까지 높였다. 이 과정에서 BIOSSES 성능은 4.5% 수준의 비용이 발생했다. 추론 효율 측면에서는 인텔 제온 6737P의 AMX 명령어와 OpenVINO를 활용해 단일 쿼리 지연 시간을 1367밀리초에서 10밀리초로 133배 단축하고, 초당 555문장 처리 속도를 달성했다.

한 가지 주목할 만한 발견은 해당 하드웨어에서 FP16이 INT8보다 모든 서빙 배치 크기에서 우수한 성능을 보였다는 점이다. 이는 일반적인 최적화 가이드와 상반되는 결과로, 연구팀은 그 원인을 논문에서 설명했다. 연구팀은 벤치마크 스위트, 학습 데이터, BODHI 생성기, OpenVINO 스크립트를 공개했다.