NVIDIA FLARE, 코드 수정 최소화로 연합 학습 도입 장벽 낮춘다

NVIDIA가 연합 학습(FL, Federated Learning) 프레임워크 FLARE의 최신 버전을 공개했다. 연합 학습은 민감한 데이터를 중앙 서버로 이동시키지 않고 각 기관의 로컬 환경에서 개별 학습을 수행한 후 모델 가중치만 공유하는 방식이다. 의료, 금융, 정부 등 규제가 엄격한 분야에서 데이터 프라이버시를 지키면서도 모델 성능을 높일 수 있는 방법으로 주목받아 왔으나, 기존 학습 코드를 연합 학습 환경에 맞게 전면 재작성해야 하는 진입 장벽이 실제 도입을 가로막았다. NVIDIA는 이번 업데이트에서 이 리팩토링 부담을 두 단계로 압축했다.

첫 번째 단계는 클라이언트 API를 통해 기존 로컬 학습 스크립트를 연합 학습 클라이언트로 전환하는 것이다. 초기화, 글로벌 모델 수신, 로컬 학습, 업데이트 가중치 전송이라는 네 가지 상호작용 지점만 추가하면 되며 약 5~6줄의 코드 수정으로 완료된다. 파이토치(PyTorch)와 파이토치 라이트닝(PyTorch Lightning) 모두 지원하며, 라이트닝 사용자는 트레이너에 패치 한 줄을 추가하는 것만으로 기존 학습 추상화를 그대로 유지한 채 연합 학습에 참여할 수 있다. 두 번째 단계는 작업 레시피(job recipe)를 통해 작성한 연합 학습 스크립트를 시뮬레이션, 개념 증명, 프로덕션 환경으로 실행 환경만 교체해 이식하는 것이다. 코드 구조 자체를 바꾸지 않아도 되는 ‘한 번 작성, 어디서나 실행’ 방식이 핵심이다.

NVIDIA는 이 프레임워크가 이미 실제 환경에 배포됐다고 소개했다. 라이노 페더레이티드 컴퓨팅(Rhino Federated Computing)이 FLARE 기반으로 구축한 일라이 릴리(Eli Lilly) TuneLab의 연합 학습 플랫폼, 대만 보건부의 국가 의료 연합 학습 이니셔티브, 미국 샌디아·LANL·LLNL의 국립 연구소 연합 AI 파일럿 등이 대표 사례로 제시됐다. 동형 암호화, 차등 프라이버시, 기밀 컴퓨팅 등 프라이버시 강화 기법도 지원한다. 데이터 이동이 규정 또는 현실적 이유로 어려운 환경에서 AI 모델 학습을 추진해야 하는 조직에게 실질적인 대안이 될 수 있을지 주목된다.