아동 발화 전사 오류 자동 주석 도구 TalkTag 공개

연구팀이 발화 전사문에서 형태-구문(morphosyntactic) 오류를 세밀하게 자동 주석하는 LLM 기반 경량 도구 TalkTag를 공개했다. 형태-구문 오류 주석은 임상 및 발달 언어 연구에서 핵심적인 작업이지만, 전문가 의존도가 높고 노동 집약적이어서 대규모로 적용하기 어렵다는 한계가 있었다. TalkTag는 이 작업을 자동화함으로써 연구자의 부담을 줄이고 분석 규모를 확장할 수 있는 실용적 대안을 제시한다.

TalkTag는 아동 서사 데이터를 활용해 CHAT 방식 오류 주석을 자동화하도록 파인튜닝됐다. 극도로 제한된 데이터 환경에서 개발됐음에도 불구하고, 저자원 환경에서의 언어 분석 가능성을 입증했다는 점이 특징이다. 평가 결과 TalkTag는 높은 정밀도의 주석을 생성하면서, 언어적 모호성으로 인해 자동 태깅이 복잡해지는 사례를 효과적으로 식별해냈다고 연구팀은 설명했다.

임상 및 발달 언어 연구에서 발화 분석은 언어 지연이나 발달 장애를 조기에 포착하는 중요한 수단이지만, 정밀한 주석 작업은 오랫동안 전문 훈련된 연구자의 수작업에 의존해 왔다. TalkTag는 이 병목 지점에 확장 가능한 자동화 도구를 제공함으로써, 대규모 임상 연구와 교육적 개입에서 형태-구문 오류 분석의 접근성을 높일 수 있다는 전망이다. 특히 학습에 쓸 수 있는 데이터가 극도로 부족한 조건에서 아동 서사 자료만으로 도구를 만들어냈다는 점은, 데이터가 귀한 저자원 환경에서도 언어 분석 자동화가 가능하다는 것을 보여준 사례로 의미가 있다. 연구팀은 TalkTag가 자동 태깅이 어려운 모호한 사례를 스스로 가려낸다는 점도 강조했는데, 이는 모든 판단을 기계에 맡기기보다 사람의 검토가 필요한 지점을 짚어주는 방식이어서 임상 적용의 신뢰도를 높이는 데 도움이 된다. 다만 본 논문의 quality_status가 warn으로 분류된 만큼, 평가 규모와 일반화 범위에 대한 추가 검증이 필요하다.