마크 저커버그 메타 최고경영자(CEO)와 부인 프리실라 챈 박사가 설립한 연구 기관 바이오허브(Biohub)가 인공지능(AI)으로 단백질을 예측하고 설계하는 ‘단백질 생물학 월드 모델’을 공개했다. 신약 개발과 질병 치료 연구의 패러다임을 바꿀 수 있는 기술로 평가된다. 이 시스템은 진화 과정에서 축적된 방대한 단백질 서열 데이터를 학습해 단백질의 구조와 기능을 이해하고, 새로운 단백질까지 설계한다.
모델은 차세대 진화 스케일 모델(ESM)을 기반으로 ‘ESM폴드2’, ‘ESM 아틀라스’, ‘ESMC’ 세 가지 핵심 구성요소로 이뤄졌다. ESMC는 28억 개의 단백질 서열을 학습한 최신 단백질 언어모델이다. 연구진은 서열 일부를 가린 뒤 나머지로 이를 예측하도록 학습시켰고, 그 결과 모델은 별도의 생물학 지식 입력 없이도 단백질 접힘과 상호작용, 기능 같은 핵심 규칙을 스스로 익혔다. 학습 규모가 커질수록 생물학 이해 능력이 선형으로 향상되는 ‘스케일링 법칙’도 확인됐다.

함께 공개된 ESM폴드2는 단백질 구조를 예측하고 새 단백질을 설계하는 모델이다. 기존 구조 예측 시스템이 유사 단백질 정렬에 크게 의존했던 것과 달리, 언어모델이 학습한 단백질 표현 자체를 활용해 구조를 예측한다. 항체-항원 구조 예측과 단백질 간 상호작용 분야에서 세계 최고 수준의 성능을 기록했다는 설명이다.
연구진은 ESM폴드2로 암·면역질환 관련 표적 단백질에 결합하는 새 단백질 바인더를 설계하는 데 성공했다. 대상은 EGFR, PD-L1, CTLA-4 등 항암·면역치료의 핵심 단백질이다. PD-L1을 겨냥해 설계한 단일사슬 항체는 실험에서 높은 결합력을 보였고, 극저온 전자현미경 검증을 통해 AI가 예측한 위치와 방향대로 실제 결합한다는 점도 확인했다. 수개월 걸리던 초기 항체 탐색을 며칠 안에 계산으로 수행할 수 있게 됐다는 의미다.
바이오허브는 68억 개 단백질 서열과 11억 개 예측 구조를 담은 ‘ESM 아틀라스’도 함께 공개했으며, 시스템 전체를 MIT 라이선스로 풀어 연구자들이 자유롭게 활용하도록 했다. 모델은 아마존웹서비스(AWS) 바이오 디스커버리 등 여러 플랫폼에서 제공될 예정이다. 국내 바이오·제약 연구 현장으로서도 오픈소스로 풀린 단백질 설계 모델은 신약 탐색의 속도와 비용을 바꿀 수 있는 자원으로 주목된다.


