엔비디아 NeMo로 금융 트랜잭션 파운데이션 모델 구축, 사기 탐지 AP 41% 향상

엔비디아(NVIDIA)가 금융 거래 데이터를 기반으로 트랜잭션 파운데이션 모델(Transaction Foundation Model)을 처음부터 구축하는 단계별 개발자 예제를 공개했다. 이 예제는 GPU 가속 데이터 처리 라이브러리 cuDF, 커스텀 토크나이저, 트랜스포머 디코더 모델 사전학습, 임베딩 추출, 다운스트림 사기 분류기 보강까지 다섯 단계로 구성된다. 스트라이프(Stripe), 누뱅크(Nubank), 비자(Visa), 마스터카드(Mastercard) 등 주요 금융사가 이미 수십억 건의 거래 데이터로 트랜스포머 기반 모델을 훈련해 실제 운영 환경에서 두 자릿수 성과 향상을 보고하고 있다고 엔비디아는 소개했다.

이 접근법의 핵심은 거래 내역을 언어 모델이 단어 시퀀스를 처리하듯 다루는 것이다. 결제, 이체, 구독 등 순서 있는 거래 흐름에 셀프어텐션(self-attention)을 적용하면 멀리 떨어진 이벤트 간 패턴을 포착할 수 있어, 수작업으로 설계한 규칙 기반 피처보다 사기 탐지에 효과적이다. 공개된 예제에서 사용된 모델은 약 2,900만 개 파라미터의 컴팩트한 Llama 디코더 구조(숨김 크기 512, 트랜스포머 레이어 8개, 어휘 6,251개)로, IBM TabFormer 합성 거래 데이터셋(약 2,440만 건)으로 사전학습된다. 도메인 전용 토크나이저를 사용하면 범용 BPE 토크나이저 대비 거래당 토큰 수를 약 39개에서 12개로 줄여 동일한 컨텍스트 윈도우에 3배 이상의 거래 이력을 담을 수 있다.

사진: Christian Wiediger / Unsplash

다운스트림 성능 측면에서, 사전학습 임베딩과 기존 표 형식 피처를 결합한 모델은 XGBoost 단독 기준선 대비 정밀도-재현율 곡선 아래 면적(AP)이 41.76% 향상됐다. ROC-AUC는 0.9885에서 0.9925로 0.41% 상승했다. AP는 사기 탐지처럼 극심한 클래스 불균형(약 0.1% 사기율) 환경에서 ROC-AUC보다 실질적 운영 성과를 더 정확히 반영하는 지표다. 임베딩만 단독으로 사용하면 기준선을 하회하지만, 피처와 결합하면 두 정보가 상호 보완된다. 엔비디아는 이 예제의 모든 구성 요소를 교체 가능하도록 설계해 다른 트랜잭션 스키마나 아키텍처, 다운스트림 과제에도 적용할 수 있다고 밝혔다.

이번 개발자 예제는 엔비디아의 NeMo AutoModel 오픈소스 학습 라이브러리로 단일 GPU 또는 다중 GPU 환경에서 동일한 스크립트를 실행할 수 있도록 구성됐다. torchrun 명령 접두 추가만으로 8-GPU 규모 학습으로 확장되며 별도 분산 처리 코드 수정이 필요 없다. 학습 완료된 체크포인트는 표준 safetensors 형식으로 저장돼 허깅페이스(HuggingFace) Transformers와 호환된다. 엔비디아는 build.nvidia.com에서 GPU 가속 환경에 바로 배포 가능한 런처블(Launchable) 형태로도 제공한다고 밝혔다.