허깅페이스의 Tom Aarsen이 RAG(검색 증강 생성) 파이프라인 고도화를 위한 크로스인코더 리랭커 모델 패밀리 Ettin을 공개했다. Ettin 패밀리는 17M(1760만), 32M, 68M, 150M, 400M, 1B(10억) 파라미터 등 총 6종으로 구성되며, ModernBERT 인코더를 기반으로 각 규모에서 최고 수준의 MTEB 검색 벤치마크 성능을 달성했다. 6개 모델 모두 아파치 2.0 라이선스로 공개돼 상업적 활용이 자유롭다.
리랭커는 RAG 파이프라인에서 임베딩 모델이 빠르게 선별한 후보 문서들을 재평가해 최적 순위를 매기는 역할을 한다. 임베딩 모델이 질문과 문서를 별도로 인코딩하는 것과 달리, 크로스인코더 방식의 리랭커는 질문과 문서를 동시에 처리해 상호 연관성을 더 정밀하게 파악할 수 있다. Ettin 패밀리의 성능은 이 방식의 강점을 잘 보여준다. 예컨대 32M 모델은 MTEB 영어 v2 검색 기준 NDCG@10 점수 0.5779를 기록, 자신보다 17배 큰 568M짜리 경쟁 모델(BAAI/bge-reranker-v2-m3)을 앞섰다. 68M 모델은 596M 규모의 Qwen3-Reranker와 동등한 수준을 보였으며, 처리 속도는 H100 GPU 기준 초당 4,913 쌍으로 약 3.6배 빨랐다.

Ettin 패밀리는 8K 토큰 컨텍스트 창과 Flash Attention 2를 지원해 긴 문서 처리와 추론 가속화에 강점을 갖는다. 1B 모델은 교사 모델로 사용된 1.54B짜리 mixedbread mxbai-rerank-large-v2와 0.0001 차이 이내의 동등한 성능을 내면서도 처리 속도는 2.4배 빠르다. 학습에 사용된 약 1억 4300만 쌍의 (질문·문서·라벨) 데이터셋과 150줄 분량의 학습 코드도 함께 공개돼 재현 및 맞춤 튜닝이 가능하다. 학습 방식은 교사 모델의 로짓(logit)을 기반으로 한 포인트와이즈 MSE 증류(distillation) 방법을 적용했다.
RAG 시스템에서 검색 품질은 최종 답변 품질을 좌우하는 핵심 요소다. Ettin 패밀리는 경량 임베딩 모델과 조합해 빠르고 정확한 검색·재순위 파이프라인을 구축하려는 개발자에게 실용적인 선택지를 제공한다. 기존 대형 리랭커 모델에 비해 크게 낮은 연산 비용으로 유사한 성능을 낼 수 있다는 점에서, 비용 효율을 중시하는 엔터프라이즈 AI 서비스 환경에서도 주목받을 것으로 보인다.


