미국 10대 은행인 헌팅턴 내셔널 뱅크(Huntington National Bank)가 AWS 클라우드 서비스를 결합해 4억 건이 넘는 문서에서 민감 고객 정보를 자동으로 삭제하는 데 성공했다. 2025년 시작된 이 컴플라이언스 프로젝트는 당초 처리 기간이 수년에 달할 것으로 예측됐으나, 확장 가능한 자동화 파이프라인을 구축해 수개월로 크게 단축됐다. 처리 비용 역시 기존 예상치의 약 5% 수준에 그쳤다.
헌팅턴 은행은 2015년부터 온프레미스(자체 전산실) 문서 관리 시스템에 수억 건의 파일을 누적 보관해 왔다. 2025년 선제적 컴플라이언스 이니셔티브의 일환으로, 이 문서들에서 사회보장번호·계좌번호·개인 주소 등 민감 정보를 삭제하는 대규모 작업에 착수했다. 문서 형식이 다양하고 분량이 방대해 높은 처리량과 유연성을 동시에 확보하는 것이 핵심 과제였다. 은행 측은 Amazon Textract(문서 텍스트·테이블 추출 머신러닝 서비스), Amazon SageMaker AI, AWS Step Functions, AWS Lambda를 조합한 오케스트레이션 파이프라인을 설계해 이 문제를 해결했다.

문서 이동 단계에서는 AWS DataSync와 AWS Direct Connect, Amazon S3, AWS Key Management Service(KMS)를 연동해 온프레미스 SMB 파일 서버에서 S3로 암호화 전송을 수행했고, 작업 완료 후에는 다시 온프레미스로 동기화했다. 민감 정보 감지는 Amazon Textract가 맡아 문서 내 필드 좌표와 메타데이터를 JSON으로 반환하면, AWS Step Functions의 분산 맵(Map) 상태가 병렬로 수백만 건을 동시에 처리했다. 실제 삭제는 PyMuPDF 등 오픈소스 파이썬 라이브러리를 활용했으며, Amazon Textract의 신뢰도 점수를 기반으로 인간 검수가 필요한 사례를 자동으로 분류하는 워크플로도 구성했다. 이를 통해 삭제 정확도는 컴플라이언스 요건인 95%를 초과 달성했다.
처리 속도 측면에서는 Amazon Textract의 초당 작업 건수(Service Quota)를 AWS Service Quotas 콘솔을 통해 확장 요청하고, Step Functions 맵 상태를 분산 모드로 실행해 동시성을 극대화했다. Amazon CloudWatch 대시보드로 응답 시간, 스로틀링 횟수, 성공·오류율을 실시간 모니터링하며 병목 구간을 즉각 조정한 결과, 하루 약 1,000만 건의 문서 처리가 가능해졌다. PCI DSS 컴플라이언스 범위 내 서비스만 사용한다는 보안 요건도 함께 충족했다. 헌팅턴 은행은 이번 프레임워크를 인수합병(M&A) 등 향후 고용량 민감정보 삭제 작업에도 지속 활용할 계획이다.
이번 사례는 AI 기반 문서 처리 자동화가 대형 금융기관의 데이터 컴플라이언스 작업에서 실질적인 비용·시간 절감을 가져올 수 있음을 보여주는 사례로 주목받고 있다. 금융권에서 개인정보 보호 규정이 강화되는 추세 속에, 머신러닝 기반 대규모 문서 처리 수요는 더욱 확대될 전망이다.














