p진수와 위상 데이터 분석 결합한 게놈 서열 분류 프레임워크 제안

연구진이 정렬 과정 없이 DNA 서열을 직접 분류하는 위상적 머신러닝(Topological Machine Learning) 프레임워크 pVR을 제안했다. pVR은 p진수(p-adic numbers) 거리와 위상 데이터 분석(TDA, Topological Data Analysis)을 결합해 게놈 서열이 지닌 위계적 구조와 지역적 서열 정보를 동시에 포착한다. 구체적으로 k-머(k-mer) 접두사에 p진수 거리를 적용해 위치 기반 계층 구조를 파악하고, k-머 빈도에 L1 거리를 적용해 서열 구성 내용을 추출한 뒤, 이 두 축이 이중 필터링된 비에토리스-립스(Vietoris–Rips) 복합체를 구성해 위상적 특징을 기계학습 분류기의 입력으로 활용한다.

논문은 pVR의 이론적 안정성도 함께 다룬다. 거리 측도가 작은 교란을 받아도 결과가 안정적으로 유지되는 조건과, 단일 p진수 축만으로는 위상적으로 유의미한 정보를 얻기 어렵고 이중 필터링을 통해야 비자명한 호몰로지(homology)를 복원할 수 있다는 점을 이론적으로 증명했다. 12개 게놈 벤치마크 실험에서 pVR은 샘플 수가 적은 6개 데이터셋 중 3개에서 기존 정렬 불필요 방법론 4종을 최대 21퍼센트포인트 앞선 성능을 보였다. 또한 5억개 파라미터 규모의 뉴클레오타이드 트랜스포머(Nucleotide Transformer) v2 모델의 제로샷 임베딩보다도 저샘플 벤치마크 3개에서 각각 6.7~11.4퍼센트포인트 높은 성능을 기록했다.

Technician in lab coat examining samples using a microscope in a modern laboratory setting. — 사진: Hera Permata S / Pexels

다만 SARS-CoV-2 변이 분류 벤치마크처럼 점돌연변이 위주의 변이가 지배적인 데이터에서는 pVR의 성능이 경쟁 방법에 뒤처졌다. 이는 p진수 기반 위계 구조 가정이 특정 유형의 서열 변이에는 적합하지 않을 수 있음을 시사한다. 샘플 수가 충분한 대규모 데이터셋에서는 모든 방법이 유사하게 수렴하는 양상도 관찰됐다. pVR 코드는 GitHub 저장소를 통해 공개돼 있어 후속 연구에 활용될 수 있다.