아제르바이잔 최대 통신사 아제르셀 텔레콤(Azercell Telecom)이 AWS 생성AI 이노베이션 센터와 6주간 협력해 자국어 LLM(대규모 언어 모델)을 Amazon SageMaker AI 위에서 개발하는 데 성공했다. 아제르바이잔어는 어미 변화가 복잡한 교착어(膠着語)로, 영어 최적화 토크나이저(tokenizer, 텍스트를 토큰으로 분절하는 도구)는 단어 하나를 여러 개의 불필요한 하위 단위로 쪼개는 문제가 있었다. 이를 해결하기 위해 연구팀은 바이트 수준 바이트 쌍 인코딩(BBPE) 방식으로 어휘 10만 개짜리 아제르바이잔어 전용 토크나이저를 새로 훈련했다.
맞춤형 토크나이저의 효과는 수치로 명확히 나타났다. 기존 Llama 3.2 기본 토크나이저가 아제르바이잔어 단어 하나를 평균 3.22개 토큰으로 분절한 반면, 새 토크나이저는 1.59개로 줄여 2배의 인코딩 효율 개선을 달성했다. 128k 컨텍스트 윈도우 기준으로 처리 가능한 실제 텍스트 용량이 약 4만 단어에서 8만 단어로 두 배로 늘어난 것이다. 훈련 효율화 측면에서는 PyTorch의 FSDP(완전 샤드 데이터 병렬) 분산 학습 기법과 Liger 커널(Triton 기반 메모리 효율 연산자)을 결합해 ml.p5.48xlarge 인스턴스(NVIDIA H100 GPU 8개)에서 최대 배치 크기를 기존 DDP 대비 4.5배 늘리고 GPU 메모리 사용량을 58% 줄이면서 처리량을 23% 향상했다.

개발 파이프라인은 세 단계로 구성됐다. 1단계에서 아제르바이잔어 말뭉치로 전용 토크나이저를 훈련하고, 2단계에서 Llama 3.2 1B 모델을 약 25억 토큰의 아제르바이잔어 데이터로 지속 사전학습(CPT)해 언어 이해 능력을 부여했다. 3단계에서는 약 2,000쌍의 질의응답 데이터로 LoRA(저차원 적응) 방식의 지도 미세조정(SFT)을 수행해 대화 에이전트로 완성했다. 최종 모델은 기존 Llama 3.2 1B가 아제르바이잔어 프롬프트에 반복적이고 문장이 흐트러진 응답을 생성한 것과 달리 간결하고 의미론적으로 정확한 아제르바이잔어 답변을 내놨다.
이 사례는 저자원(low-resource) 언어에 대한 LLM 개발의 현실적 경로를 보여준다. 아제르바이잔어처럼 훈련 데이터가 적고 언어 구조가 복잡한 경우, 범용 모델을 그대로 사용하는 것이 아니라 언어 구조에 맞는 토크나이저 설계와 효율적인 지속 사전학습이 핵심이다. 아제르셀은 이 프레임워크를 독립적으로 운영할 수 있는 역량을 갖췄으며, 더 큰 모델과 더 많은 데이터로 확장할 준비가 됐다고 AWS는 밝혔다.


