메타(Meta) 엔지니어링팀이 매일 수 페타바이트(PB) 규모의 MySQL 소셜 그래프 데이터를 수집하는 플랫폼을 전면 재설계하고, 서비스 중단 없이 마이그레이션을 완료했다고 밝혔다. 핵심 전략은 기존에 각 파이프라인 소유 팀이 독립적으로 운영하던 분산 구조를 중앙화된 셀프 서비스 웨어하우스 방식으로 전환하는 것이었다. 수천 개의 수집 파이프라인을 무중단으로 이전하기 위해 팀은 ‘역방향 섀도잉(reverse shadowing)’과 지속적 체크섬 모니터링을 핵심 기법으로 활용했다.
마이그레이션은 세 단계로 진행됐다. 먼저 새 시스템을 프로덕션 데이터에 대해 검증하는 섀도 단계, 이후 프로덕션 소유권을 새 시스템으로 옮기면서도 롤백 능력을 유지하는 역방향 섀도 단계, 마지막으로 일관성·성능 검사를 통과한 뒤 레거시 파이프라인을 폐기하는 정리 단계였다. 팀은 신·구 시스템 간 행 수와 체크섬 불일치를 실시간으로 추적했으며, 불일치 발생 시 사전 프로덕션 환경에서 수정 후 검증하는 절차를 거쳤다. 핵심 테이블에는 정확성과 성능 두 가지 기준을 모두 충족해야 다음 단계로 진행하는 엄격한 검증 조건이 적용됐다.

이번 재구축에 사용된 CDC(Change Data Capture, 변경 데이터 캡처) 방식은 초기 전체 복사(full dump)가 비용이 크기 때문에, 팀은 데이터 품질 이슈가 해소되기 전까지 불필요한 섀도 잡(job) 생성을 최소화하는 방식으로 대규모 스냅샷 생성을 줄여 마이그레이션 효율을 높였다. 메타는 이번 사례가 AI·머신러닝·분석 워크로드를 뒷받침하는 데이터 인프라를 운영 중단 없이 현대화하는 방법을 보여준다고 강조했다. 대규모 분산 시스템에서 마이그레이션을 수행하는 작업은 심장 수술에 비유될 정도로 까다롭지만, 체계적인 단계 설계와 자동화된 검증 체계가 이를 가능하게 했다는 것이 핵심 교훈으로 꼽혔다.


