대규모 언어 모델(LLM) 훈련과 추론에서 어텐션 연산의 메모리 소비는 핵심 병목 중 하나다. 표준 어텐션은 배치 크기·헤드 수·시퀀스 길이의 제곱에 비례하는 점수 행렬을 메모리에 저장해야 하므로, 시퀀스가 길어질수록 GPU 메모리가 빠르게 고갈된다. 메타가 개발한 오픈소스 라이브러리 xFormers는 이 점수 행렬을 메모리에 올리지 않고 어텐션을 계산하는 메모리 효율 커널을 제공해 이 문제를 해결한다. 같은 어텐션 결과를 내면서도 메모리 사용량이 시퀀스 길이에 거의 선형으로 증가하기 때문에, 동일한 GPU에서 훨씬 긴 시퀀스를 처리할 수 있다.
xFormers는 기본 어텐션 외에도 실용적인 여러 기법을 지원한다. 패킹 시퀀스(BlockDiagonalMask)는 길이가 다른 여러 시퀀스를 패딩 없이 하나의 배치로 묶어 처리 효율을 높이며, 디코더 전용 모델에 필요한 인과적 어텐션도 별도의 행렬 할당 없이 암묵적 마스크로 처리한다. 그룹 쿼리 어텐션(GQA)은 여러 쿼리 헤드가 더 적은 수의 키-값 헤드를 공유하는 구조로, 라마(Llama) 및 미스트랄(Mistral) 계열 모델이 추론 시 KV 캐시를 줄이는 데 활용하는 방식이다. 여기에 위치 정보를 각 어텐션 헤드별 선형 편향으로 인코딩하는 ALiBi 방식과 파라미터 효율이 높은 SwiGLU 피드포워드 레이어를 결합하면, xFormers만으로 GPT 구조의 완전한 구현이 가능하다.
이 기법들은 개별적으로도 활용 가능하지만, 자동 혼합 정밀도(AMP) 훈련과 결합할 때 실제 LLM 개발 흐름에 가장 가까운 구현 환경이 만들어진다. 롱 컨텍스트 처리와 추론 속도 최적화가 경쟁의 핵심이 된 LLM 생태계에서, 메모리 효율 어텐션 기법을 올바르게 적용하는 역량은 모델 개발과 서비스화 비용을 직접 좌우한다. 한국의 AI 기업과 연구 기관에서도 GPU 자원 효율화가 모델 경쟁력 확보의 중요한 변수로 부상하는 상황에서, xFormers 같은 오픈소스 최적화 도구의 활용 방법을 이해하는 것이 점점 더 중요해지고 있다.














