자연어 추론(NLI, Natural Language Inference) 과제에서 아프리카 저자원 언어를 대상으로 프롬프트 설계 전략의 효과를 체계적으로 비교한 연구가 arXiv에 발표됐다. 연구진은 스와힐리어, 요루바어, 하우사어를 대상으로 AfriXNLI 벤치마크를 활용해 실험을 진행했으며, 파인튜닝 없이 순수 프롬프팅만으로 다국어 NLI 성능을 높일 수 있는지를 검토했다.
연구에서 평가한 프롬프트 전략은 기본 제로샷(baseline zero-shot), 문자 체계 인식(script-aware), 언어별 특화(language-specific), 대조적(contrastive), 원어 레이블 자기 번역(NL-STP) 방식 등 5가지다. 두 종류의 중간 크기 오픈 가중치 모델인 Llama 3.2-3B와 Gemma 3-4B를 사용했으며, 퓨샷(few-shot) 예시와 CoT(Chain-of-Thought, 연쇄 추론) 효과를 배제해 프롬프트 설계 자체의 영향만을 분리했다. 실험 결과 대조적 프롬프팅이 언어와 모델 전반에 걸쳐 가장 일관된 성능 향상과 클래스 균형을 달성했다.

주목할 만한 발견은 잘 구성된 프롬프트만으로 퓨샷 예시와 CoT를 사용한 더 강력한 기준선을 능가할 수 있다는 점이다. 이는 저자원 언어에서 대규모 훈련 데이터 없이도 신중한 프롬프트 설계가 모델 견고성을 의미 있게 향상시킬 수 있음을 시사한다. 연구진은 다국어 NLI에서 프롬프트 구성 방식이 핵심 요소이며, 언어를 고려한 결정 구조화가 자원 제약 환경에서의 강건성을 높이는 데 활용될 수 있다고 결론지었다.
이 연구는 아프리카 언어를 비롯한 저자원 언어 AI 처리에서 데이터 수집보다 프롬프트 엔지니어링이 먼저 탐색되어야 할 방법론임을 구체적으로 보여준다는 점에서 의의가 있다. 기존에는 저자원 언어에 대한 LLM(대규모 언어 모델) 성능 개선이 주로 파인튜닝이나 데이터 증강에 의존해왔으나, 이 연구는 프롬프트 설계만으로도 상당한 성과를 거둘 수 있음을 입증했다.














