구글의 AI 검색 요약 기능이 ‘Google’이라는 단어조차 제대로 쓰지 못하는 사실이 드러나며 논란이 되고 있다. ‘Google’에 알파벳 P가 몇 개 들어 있느냐는 질문에 구글 AI는 두 개라고 답했고, ‘poop’에는 r이 정확히 한 개 있다는 황당한 대답을 내놓았다. ‘journalism’을 ‘journadism’으로 잘못 표기하는가 하면, 미국 대통령의 성을 묻는 질문에는 알파벳 개수는 맞혔으나 ‘t-r-p-u-m’처럼 순서를 뒤섞어 적었다.
이런 실수는 구글이 29년 된 핵심 제품인 검색 엔진 전체를 생성형 AI 중심으로 재편하는 와중에 터져나왔다는 점에서 더 뼈아프다. 회사 측은 단어 내부의 글자를 세는 작업이 거대언어모델의 알려진 약점이며 해당 문제를 고치기 위해 작업 중이라고 해명했다. 그러나 단순한 철자 오류를 넘어, 앞서 특정 단어를 검색했을 때 엉뚱한 결과를 내놓던 문제도 별도로 수정한 바 있어 신뢰성 우려가 커지고 있다.

전문가들은 이 현상이 일시적 버그가 아니라 모델 구조에서 비롯된 근본 한계라고 지적한다. 앨버타대학교의 한 AI 연구자는 거대언어모델이 의존하는 트랜스포머 구조가 실제로 텍스트를 ‘읽는’ 것이 아니라고 설명했다. 입력된 프롬프트는 글자가 아니라 토큰이라는 인코딩 단위로 변환되며, 모델은 이 토큰을 다룰 뿐 개별 알파벳을 인식하지 않는다는 것이다.
노스이스턴대학교에서 거대언어모델 해석을 연구하는 한 박사과정 학생은 ‘단어’를 모델에게 무엇으로 정의할지 자체가 까다로운 문제라고 짚었다. 설령 인간 전문가들이 완벽한 토큰 어휘 체계에 합의하더라도, 모델은 이를 더 잘게 쪼개 사용하는 편이 유용하다고 판단할 가능성이 크다는 것이다. 다만 연구자들은 철자 정확도가 거대언어모델의 핵심 효용이 아니기 때문에 이 문제를 시급한 과제로 보지는 않는다.
한국 독자와 업계 관점에서 이 사례는 AI 결과물을 무조건 신뢰해서는 안 된다는 경고로 읽힌다. 검색 엔진은 신뢰를 기반으로 작동하는데, 만능처럼 보이는 AI가 가장 기초적인 철자조차 틀린다면 더 복잡한 사실 판단에서도 오류가 숨어 있을 수 있다. 국내에서도 생성형 AI를 검색·고객 응대·콘텐츠 제작에 빠르게 도입하는 흐름이 뚜렷한 만큼, 출력값을 반드시 사람이 교차 검증하는 절차를 제도화하는 일이 필요하다. AI의 한계를 정확히 이해하는 것이 곧 활용 역량의 출발점이 될 것이다.


