관계형 DB 자동완성 과제 위한 그래프 트랜스포머 RelGT-AC

기업·과학·의료 시스템을 뒷받침하는 관계형 데이터베이스에 대한 머신러닝 적용은 다중 테이블 구조의 이질성과 시계열 특성 때문에 여전히 도전적인 과제다. arXiv에 공개된 논문은 이 문제에 접근하는 RelGT-AC(Relational Graph Transformer for Autocomplete)를 제안한다. 이 모델은 데이터베이스를 이종 그래프로 표현하고 그래프 신경망(GNN)을 직접 적용하는 관계형 딥러닝(RDL, Relational Deep Learning) 방식을 확장한다.

연구팀은 RelBench v2에 새로 추가된 자동완성 과제—기존 열 값을 관계형 문맥에서 예측하는 지능형 폼 완성 보조 유형의 과제—에 주목했다. RelGT-AC는 기존 RelGT 아키텍처에 세 가지 기능을 추가했다. 첫째는 서브그래프 인코딩 시 타깃 열을 마스킹해 자명한 답을 얻는 것을 방지하는 열 마스킹 전략이다. 둘째는 이진 분류·다중 클래스 분류·회귀 자동완성 과제를 단일 모델에서 처리하는 통합 태스크 헤드다. 셋째는 자유 텍스트 열을 자동 탐지해 TF-IDF로 인코딩함으로써 범주형 인코더가 버리는 어휘 신호를 복원하는 기능이다.

rel-trial·rel-f1·rel-stack 등 3개 RelBench v2 데이터셋에 걸친 7개 과제 실험에서, RelGT-AC는 3개 회귀 자동완성 과제 모두에서 GraphSAGE 기준 모델을 앞섰다. TF-IDF 인코더 추가로 적격성 관련 텍스트 집약 과제에서 AUROC가 최대 10 포인트 향상됐다고 논문은 보고한다.

관계형 데이터베이스는 전 세계 비즈니스 인프라의 핵심인 만큼, 이 위에서 직접 작동하는 AI 예측 모델의 정확도 향상은 임상 시험 데이터 관리·스포츠·기술 질의응답 등 RelBench v2가 다루는 다양한 도메인에서 실용적 가치를 지닌다. 폼 자동완성 같은 일상적 데이터 입력 보조 영역에서 후속 연구와 응용이 이어질 전망이다.