뇌 기반 파운데이션 모델, 3차 통계 결여가 인지 예측 성능 저하 원인

fMRI(기능적 자기공명영상) 데이터를 자기지도 학습으로 사전학습한 뇌 파운데이션 모델(BFM)이 인지 능력 예측에서 훨씬 단순한 기준선 모델보다 성능이 떨어지는 현상을 분석한 연구 결과가 나왔다. 연구진은 3개의 최신 뇌 파운데이션 모델과 모든 출력 판독 방식을 검토한 결과, 이들 모델이 약 8만 개 파라미터 수준의 기능적 연결 행렬(FC) 기반 선형 회귀보다 인지 능력 예측에서 일관되게 낮은 성능을 보인다는 사실을 확인했다.

연구진은 이 현상의 원인을 ‘분산 배분 문제’로 규정했다. 파운데이션 모델의 사전학습이 fMRI 신호에서 가장 큰 분산을 차지하는 성분을 학습하는 데 집중된 반면, 인지 능력 예측과 관련된 고차 통계 구조는 포착하지 못한다는 것이다. 구체적으로는 2차 공분산은 부분적으로 보존되지만, 3차 공왜도(co-skewness) 텐서는 대부분 손실된다는 사실을 쿠뮬란트(cumulant) 분석을 통해 밝혔다. 또한 모델 규모를 키울수록 인지 예측 성능이 오히려 떨어지는 경향도 확인됐다.

이 문제를 해결하기 위해 연구진은 fMRI 신호를 공왜도를 가장 잘 보존하는 부분공간으로 사영(projection)한 뒤 그 공간에서 기능적 연결 행렬을 계산하는 선형 파이프라인을 설계했다. 이 방법은 사전학습 없이 GPU 없이도 적용 가능하며, 기존 기능적 연결 행렬과 모든 사전학습 파운데이션 모델을 테스트한 모든 데이터셋·분할 방식에서 능가했다고 연구진은 밝혔다. 또한 파운데이션 모델을 미세조정할 때 이 공간을 대상으로 한 손실 함수를 적용하면 기능적 연결 행렬 수준의 성능을 회복할 수 있다는 것도 보였다.

이 연구는 뇌 파운데이션 모델의 병목이 아키텍처나 모델 규모에 있는 것이 아니라 사전학습 목적 함수 자체에 있다는 결론을 제시한다. 대규모 모델이 항상 우수한 성능을 보일 것이라는 통념과 달리, 목표 과제에 맞는 통계적 구조를 보존하는 학습 설계가 더 중요하다는 시사점을 남긴다.