개스록, 분산 LLM 사전 훈련의 통신 병목 해소하는 분산형 알고리즘 제안

대규모 언어 모델(LLM) 사전 훈련에서 클러스터·데이터센터 간 저대역폭 분산 환경의 통신 병목을 해소하는 새로운 탈중앙화 알고리즘 개스록(GASLoC)이 arXiv에 발표됐다. 훈련 규모가 커질수록 동기식 올-리듀스(All-Reduce) 연산에 의존하는 기존 방식이 대역폭이 고르지 않거나 노드 속도가 다른 환경에서 병목이 된다는 문제를 겨냥한 연구다.

기존 통신 효율화 방식들은 통신 빈도를 줄이더라도 여전히 동기식 올-리듀스에 의존해 모든 노드가 동일한 모델 상태를 유지해야 했다. 개스록은 이 의존성을 끊고 ‘외부 옵티마이저(outer optimizer)’ 개념으로 통신 가속을 일반화해, 적응형 옵티마이저 호환, 로컬 옵티마이저 스텝, 희소 랜덤 피어 통신을 동시에 지원하는 가십(gossip) 기반 훈련 프레임워크를 구현했다. 이를 통해 노드 간 대역폭과 처리 속도가 불균질한 이기종 환경에서도 학습이 원활히 진행될 수 있다.

다양한 LLM 훈련 과제에서 수행한 실험 결과, 개스록은 단일 통신 스텝 조건에서 다양한 토폴로지에 걸쳐 기존 탈중앙화 알고리즘들을 상회했다. 또한 복수의 로컬 스텝을 활용할 경우 기존 LLM 분산 학습에서 참조 방법으로 쓰이는 딜로코(DiLoCo)와 경쟁할 수 있는 성능을 보였으며, 이기종 대역폭 환경에서는 딜로코를 크게 앞서는 결과를 냈다.

LLM 사전 훈련이 단일 데이터센터를 넘어 지리적으로 분산된 컴퓨팅 자원으로 확장되는 추세 속에서, 개스록은 이기종 네트워크 환경에서도 효율적인 대규모 훈련을 가능하게 하는 실용적 기반 기술로 주목받는다. 클라우드 비용 절감이나 여러 기관이 보유한 이질적 인프라를 연계해 모델을 공동 훈련하려는 시도가 늘어나는 상황에서, 동기화 없이도 안정적으로 수렴하는 분산 훈련 알고리즘의 중요성은 한층 커질 전망이다.