정보 검색 품질을 끌어올리는 핵심 부품인 리랭커(reranker) 여섯 종으로 구성된 오픈소스 모델 패밀리가 공개됐다. 리랭커는 포인트와이즈 크로스인코더라고도 불리며, 질의와 후보 문서를 함께 입력받아 관련도를 점수화하는 신경망 모델이다. 크로스인코더는 전체 문서 집합에 직접 돌리기에는 비용이 너무 크기 때문에, 실무에서는 먼저 빠른 검색기가 후보를 추려 깔때기에 넣고 리랭커가 그중 최종 순위를 정하는 2단계 방식이 일반적으로 쓰인다.
공개된 여섯 모델은 모두 동일한 구조를 공유하며 백본 크기만 다르다. 각 인코더 위에 4개 모듈로 된 분류 헤드를 얹는 구조다. 개발 과정의 실험에서는 평균 풀링보다 CLS 풀링이 더 나은 성능을 보였는데, 이는 다소 의외의 결과였다. 사용된 백본은 세 번째 층마다만 전역 어텐션을 쓰고 나머지 3분의 2는 멀리 떨어진 위치에서 CLS에 닿지 못하는 지역 윈도 어텐션을 쓰는데도, 그 소수의 전역 층이 CLS를 더 나은 풀링 선택지로 만들 만큼 충분한 신호를 실어 나른 것으로 분석됐다.

품질 측면에서 가장 작은 17M 모델은 33M 규모의 기존 모델을 능가했고, 150M 모델은 표준 벤치마크에서 600M 미만 구간의 최강 리랭커로 평가됐다. 가장 큰 1B 모델은 교사 모델인 1.54B 모델을 0.0001 차이로 바짝 추격하며 거의 동등한 성능에 이르렀다. 작은 모델이 더 큰 모델의 성능을 따라잡는다는 점에서, 효율과 정확도를 동시에 노리는 검색 시스템에 의미 있는 선택지를 제공한다.
속도 또한 리랭커에서 품질만큼 중요한 지표다. H100 80GB 한 대에서 13개 공개 리랭커와 비교한 결과, 17M 모델은 초당 7517쌍을 처리해 전체 비교군 중 가장 빨랐다. 소비자용 RTX 3090에서는 초당 9008쌍으로 H100보다도 높은 수치를 보였는데, 이는 아주 작은 크기에서는 순수 연산력이 병목이 아님을 시사한다. 가장 큰 1B 모델은 H100에서 초당 928쌍을 처리해 1.54B 교사 모델보다 2.4배 빨랐다. 모든 모델은 자유롭게 쓸 수 있는 라이선스로 배포됐다.
한국의 검색·RAG 서비스 개발자에게 이 공개는 실용적 가치가 크다. 검색 증강 생성 파이프라인에서 리랭커는 답변 품질을 좌우하는 결정적 단계이지만, 비용과 지연 시간 제약 때문에 도입을 망설이는 경우가 많았다. 17M처럼 초소형이면서도 큰 모델에 뒤지지 않는 품질을 내는 선택지가 오픈소스로 제공되면, 자체 GPU나 소비자용 카드만으로도 고품질 한국어 검색 서비스를 구축할 여지가 넓어진다. 국내 팀은 자사 데이터로 한국어 성능을 검증하고 비용-품질 균형점을 직접 탐색해볼 만하다.


