엔비디아 바이오네모, 문맥 병렬화로 대형 단백질 복합체 구조 예측 한계 돌파

엔비디아(NVIDIA) 바이오네모(BioNeMo) 팀이 단일 GPU 메모리 제약으로 불가능했던 대형 생체분자 복합체 구조 예측을 가능하게 하는 문맥 병렬화(Context Parallelism, CP) 프레임워크를 발표했다. 이 프레임워크는 하나의 대형 분자 시스템을 여러 GPU에 분산 처리해, 기존 방식에서 필수였던 서열 단편화나 청킹(chunking) 없이 전체 분자 맥락을 유지한 채 구조를 예측한다.

기존 단백질 폴딩 연구는 GPU VRAM 한계로 인해 1,000~3,000개 잔기(residue)가 넘는 복합체를 조각으로 잘라 처리해야 했다. 이 과정에서 단백질 간 신호 전달이나 알로스테리(allostery) 같은 장거리 상호작용 정보가 손실됐다. 바이오네모 CP 프레임워크는 N×N 쌍 표현 행렬을 2D 타일 방식으로 분할해 GPU당 메모리 사용량을 O(N²)에서 O(N²/P)로 줄이는 방식으로 이 문제를 해결한다. 실증 결과에서는 볼츠-2(Boltz-2) 모델의 학습 데이터 최대 길이(768 잔기)와 단일 GPU 메모리 용량을 모두 넘어서는 3,605 잔기 규모의 TTC7A/PI4KA/FAM126A/EFR3A 복합체를 H100 GPU 4대로 샘플당 약 54초 만에 구조 예측하는 데 성공했다. 또한 256개 GPU 환경에서 최대 약 2만 개 토큰을 처리할 수 있음을 확인했다.

Abstract image of connected molecular shapes with vibrant colors. — 사진: Google DeepMind / Pexels

레조 테라퓨틱스(Rezo Therapeutics), 프록시마(Proxima), 이렌딜 랩스(Earendil Labs) 등 파트너사들도 이 프레임워크를 실제 신약 발굴에 적용하고 있다. 레조 테라퓨틱스는 최대 6,500개 잔기 규모의 단백질-단백질 상호작용 예측에 활용해 공개 데이터베이스 대비 3배 이상의 고품질 신규 복합체를 발굴했다고 밝혔다. 이렌딜 랩스는 긴 서열에서도 고정확도 구조 예측이 가능함을 입증하고 차세대 생물치료제 발굴 기간 단축에 활용 중이다.

연구팀은 CP가 메모리 용량 확장을 가능하게 하더라도 모델이 소규모 단편에 대해 학습됐기 때문에 대형 구조 예측의 정확도를 높이려면 더 긴 서열로 파인튜닝이 필요하다고 밝혔다. 이를 위해 알파폴드 단백질 구조 데이터베이스(AFCDB)에 대규모 복합체 예측 데이터를 추가해 합성 훈련 데이터를 구축하는 작업도 병행하고 있다. 프레임워크 코드는 볼츠 오픈소스 문서를 통해 공개됐다.