GPU 클록 주파수 세밀 조정으로 LLM 훈련 에너지 최대 14% 절감

네덜란드 트벤테대학교(University of Twente) 연구팀이 LLM(대규모 언어 모델) 훈련 속도를 거의 희생하지 않고 GPU 에너지 소비를 최대 14% 줄이는 방법을 발표했다. 핵심은 동적 전압-주파수 스케일링(DVFS)을 기존보다 훨씬 세밀한 단위로 적용하는 것이다. 연구 결과는 시실리 카타니아에서 열린 Computing Frontiers 컨퍼런스에서 발표됐다.

현대 GPU는 연산 코어와 메모리 각각 별도의 클록을 가지고 있다. 코어가 집중적으로 수치를 처리하는 동안 메모리 클록을 낮추고, 반대로 데이터를 메모리에서 불러오는 구간에서는 코어 클록을 줄이는 방식이 DVFS다. 이 기법 자체는 1990년대부터 알려져 있었으나, LLM 훈련에 효과적으로 적용하기 어려웠다. 이전 연구들은 순전파와 역전파 같은 큰 단위로 주파수를 조정했는데, 이 경우 에너지 절감이 충분하지 않거나 속도 저하가 심했다.

트벤테대 연구팀은 GPU 작업을 커널(kernel)이라는 훨씬 작은 연산 단위로 쪼개 주파수를 조절했다. 단일 딥러닝 레이어 처리에 약 40개의 커널이 사용되며, 각 커널에 맞춰 클록을 최적화하는 방식이다. 1.3B 파라미터 규모의 GPT-3-xl을 엔비디아 RTX 3080 Ti GPU로 훈련하는 실험에서 이 방법은 14% 에너지 절감을 달성하면서도 훈련 시간 증가는 0.6%에 그쳤다. GPU 자체 자동 DVFS는 앞으로 실행될 커널을 미리 알지 못해 최선 추정치만으로 동작하기 때문에 수동 최적화만큼의 절감에 도달하지 못한다는 점도 확인됐다.

다만 주파수 전환 속도가 즉각적이지 않아 14%는 이상적 최선값이며, 실제 절감폭은 GPU 모델에 따라 달라진다고 연구팀은 밝혔다. 엔비디아의 최신 블랙웰(Blackwell) GPU처럼 전환 속도가 빠른 하드웨어일수록 이 방법의 효과가 더 크다. 연구팀은 특정 워크로드에 대한 최적 주파수 스케줄을 자동으로 도출하는 도구를 개발 중이며, 산업계 채택을 목표로 하고 있다.