프랑스 지역 지식 평가 벤치마크 CARTE 공개

연구팀이 대규모 언어 모델(LLM)의 지역 단위 문화 지식 처리 능력을 측정하기 위한 벤치마크 CARTE(Culturally Anchored Regional-Territorial Evaluation)를 제안했다. 기존 문화 이해 벤치마크들이 국가 수준의 지식 평가에 집중한 반면, CARTE는 한 나라 안에서도 지역마다 달라지는 세부 지식을 모델이 구별해 낼 수 있는지를 측정하는 데 초점을 맞춘다.

CARTE는 프랑스 본토 13개 광역 지역을 아우르는 2,431개의 다지선다형 문항으로 구성되며, 문화, 언어, 인구, 경제, 환경, 교통 등 14개 주제 영역을 다룬다. 연구팀은 프랑스 내 언어 변이를 집중적으로 다루는 하위 평가 세트인 CARTE-LV(Linguistic Variation)도 별도로 구축해, 지역 간 언어 차이에 대한 모델의 대응 능력을 분석할 수 있도록 설계했다.

Elegant woman with sunglasses reads a newspaper on a sunny day outside. — 사진: Andrea Piacquadio / Pexels

연구팀은 이 벤치마크를 이용해 파라미터 규모 10억에서 120억에 이르는 LLM 27종을 퓨샷(few-shot) 환경에서 평가했다. 그 결과 지역별 성능 편차가 뚜렷하게 나타났으며, 모델 규모에 따른 성능 격차도 확인됐다. 이는 사전 학습 데이터가 지역 수준에서 고르지 않게 분포돼 있어 국가 내 지역 변이에 대한 대응 능력이 전반적으로 제한적임을 시사한다. 기존 문화 벤치마크가 한 나라를 하나의 단위로 묶어 평가해 온 탓에, 같은 국가 안에서도 인접한 지역들의 미묘한 차이를 모델이 구별하는지를 검증할 도구가 부족했다는 것이 연구팀의 문제의식이다. CARTE가 13개 광역 지역과 14개 주제 영역을 교차해 문항을 구성하고, 언어 변이만 따로 떼어낸 CARTE-LV 세트를 추가한 것도 이런 세분화된 평가를 가능케 하기 위해서다. 국가 단위를 넘어 지역 단위 문화 다양성까지 포괄하는 LLM 평가 기준이 필요하다는 문제의식을 구체적인 데이터로 뒷받침한 연구로, 비영어권·다지역 환경에서 LLM의 지식 편향을 점검하려는 후속 연구의 참조점이 될 전망이다.