ComfyUI, Amazon SageMaker AI에서 대규모 이미지 생성 자동화하는 법

AWS가 노드 기반 생성 AI 워크플로 도구 ComfyUI를 Amazon SageMaker AI 처리 작업으로 구동해 기업 규모의 이미지 대량 생성을 자동화하는 구체적인 아키텍처와 구축 방법을 공개했다. 이 솔루션은 Z-Image Turbo의 60억 파라미터 확산 트랜스포머(diffusion transformer) 모델을 SageMaker AI 처리 작업의 GPU 인스턴스(ml.g5.xlarge)에서 실행해, 기존 크리에이티브 팀이 수 주에 걸쳐 작업하던 이미지 생산 과정을 한 시간 이내로 단축한다. ComfyUI는 복잡한 이미지·오디오·영상 파이프라인을 코딩 없이 재현 가능한 그래프 형태로 구성하고 팀 간에 공유할 수 있는 비주얼 워크플로 빌더다.

인프라는 AWS CDK(Cloud Development Kit) 기반 3개 스택으로 구성된다. 데이터 저장용 DataStack은 Amazon S3 출력 버킷을 제공하고, SecurityStack은 프라이빗 서브넷과 NAT 게이트웨이를 갖춘 Amazon VPC를 설정해 처리 작업이 격리된 네트워크에서 실행되도록 한다. 핵심인 ComfyUISmStack은 AWS Lambda 함수로 SageMaker AI 처리 작업을 트리거하며, 각 처리 작업은 고유 타임스탬프로 식별되는 작업 이름을 부여받아 Docker 컨테이너로 배포된다. 생성된 이미지는 작업이 완료되기 전에도 Amazon S3로 실시간 스트리밍되어 중간 결과를 즉시 확인할 수 있으며, 처리 완료 후 SageMaker AI가 GPU 인스턴스를 자동으로 종료해 초당 과금 방식으로 유휴 비용을 제거한다.

A dark, minimalist photo of a computer monitor displaying the ChatGPT interface. — 사진: Matheus Bertelli / Pexels

Z-Image Turbo 모델은 텍스트와 이미지 모달리티 토큰을 단일 시퀀스로 통합 처리하는 ‘얼리 퓨전(Early Fusion)’ 방식의 단일 스트림 트랜스포머 아키텍처(S3DiT)를 채택했다. 대규모 언어 모델(LLM) 디코더에서 영감을 받은 30레이어, 히든 사이즈 3840, 32개 어텐션 헤드 구조로, 고품질 이미지를 추론 비용을 낮추면서 생성할 수 있다. ComfyUI의 워크플로는 JSON 형식으로 내보내 컨테이너에 탑재할 수 있어, 팀별 맞춤 워크플로로 교체하거나 이미지 생성 외 오디오 합성·3D 에셋 렌더링·동영상 생성 등 다른 생성 AI 태스크에도 동일한 파이프라인을 적용할 수 있다.

이 솔루션을 도입하려면 Python 3.13 이상, AWS CLI, Docker, AWS CDK v2가 준비돼 있어야 하며, ml.g5.xlarge 인스턴스 6개에 대한 SageMaker AI 서비스 할당량 증가를 AWS 관리 콘솔에서 먼저 신청해야 한다. 소셜 미디어용 수백 종의 광고 소재 A/B 테스트, 국제 출시용 지역 맞춤형 패키지 디자인 생성, 게임·스트리밍 서비스의 분기형 인터랙티브 영상 제작 등 다양한 엔터프라이즈 활용 사례가 가능하다. 구현 코드는 깃허브에 공개돼 있다.