트랜스포머가 침입 탐지에 실제로 유리한가 — 평가 방법론이 결과 좌우한다

네트워크 침입 탐지 시스템(IDS) 연구에서 트랜스포머 기반 모델의 성능이 아키텍처 자체보다 평가 방법론에 의해 더 크게 결정된다는 연구 결과가 arXiv에 게재됐다. 기존 연구 상당수가 순차 입력을 제대로 제공하지 않거나 데이터 누수 없는 조건에서 평가하지 않아 보고된 성능 향상이 실제 시퀀스 모델링 능력에서 비롯된 것인지 불분명하다는 문제의식에서 출발한 연구다.

연구진은 침입 탐지 공개 데이터셋 CIC-IDS2017을 시간 순서가 보존된 시퀀스 과제로 재구성하고, 트랜스포머를 포함한 9가지 고전·딥러닝 모델을 임의 분할, 누수 없는 분할 두 가지, 패딩 방식 비교 등 네 가지 조건에서 벤치마킹했다. 핵심 발견은 패딩 방식이 트랜스포머 성능을 결정적으로 좌우한다는 점이다. 비패딩 순차 윈도우 조건에서 트랜스포머는 매크로-F1 0.89로 전체 모델 중 최고를 기록했으나, 제로 패딩·마스크 평가로 전환하자 매크로-F1이 0.24 하락했다. 반면 LSTM, GRU, 1D-CNN은 두 조건 모두에서 안정적인 성능을 유지했다.

누수 없는 그룹 평가 조건에서는 랜덤 포레스트가 가장 견고한 모델(+0.009)로 나타났으며, 트랜스포머의 오탐율은 0.04%에서 2.7%로 67배 증가했다. 이는 기존의 임의 분할과 반복-마지막 패딩 방식이 모델 견고성을 실제보다 최대 매크로-F1 0.24 높게 추정하게 만들 수 있음을 의미한다. 연구진은 미래 IDS 연구의 표준 관행으로 누수 없는 분할, 명시적 패딩 공개, 시퀀스 인식 벤치마킹을 제안했으며, 코드와 구현 세부 사항을 깃허브에 공개했다.

이 연구는 AI 보안 모델 평가에서 방법론적 엄밀성이 결여되면 실제 현장 성능과 보고 성능 사이에 큰 괴리가 생길 수 있음을 실증했다. 트랜스포머가 사이버 보안 분야에서 항상 우월하다는 통념에 근거 있는 의문을 제기한다는 점에서 후속 연구에 영향을 미칠 것으로 예상된다.