AI 시스템의 성능을 측정하는 데는 막대한 자원이 투입되고 있지만, 그 기술이 실제로 인간에게 어떤 영향을 미치는지는 체계적으로 파악되지 않고 있다는 경고가 나왔다. 비영리 단체 인간기술센터(Center for Humane Technology)에서 AI의 심리사회적 평가를 이끄는 임란 칸은 최근 에세이를 통해, 우리가 인지·관계·행동을 재편할 능력을 갖춘 AI 도구를 배포하면서도 그 하류 효과를 측정하려는 체계적 노력은 거의 기울이지 않고 있다고 지적했다.
칸은 SWE-bench나 LLM 아레나 같은 평가 지표들이 일반인의 일상과 관련성이 제한적인 추상적 과제에 집중되어 있다고 비판했다. 반면 청소년 자살, AI 심리증(AI psychosis), 과도한 AI 챗봇 의존 같은 실제 피해 사례는 이미 나타나고 있지만 이를 정량화하는 노력은 훨씬 부족하다. 그는 소셜미디어가 사회에 해악을 끼쳤을 때 증거가 충분히 축적되기까지 너무 늦어버렸던 전례를 언급하며, AI는 소셜미디어보다 더 광범위하고 깊은 영향을 미칠 수 있다고 경고했다. 실제로 오픈AI(OpenAI)가 ChatGPT의 지나친 아첨성(sycophancy) 문제로 대중의 압박을 받아 모델을 조정한 사례는, 측정과 비판이 기술 방향을 바꿀 수 있다는 증거라고 칸은 강조했다.

특히 심각한 우려를 낳는 영역으로는 AI 동반자·정서적 지원 서비스와 아동·청소년 사용이 꼽힌다. 칸은 외로움과 정서적 지지를 원하는 이용자들이 사실 필요한 것은 진정한 인간 관계임에도 AI 챗봇에 의존할 경우, 어렵고 힘든 인간 관계를 맺으려는 노력에서 멀어질 수 있다고 우려했다. 또한 청소년기는 뇌가 가장 유연하게 발달하는 시기인 만큼, 인지적 과제나 정서적 참여의 진입 장벽을 낮추는 AI의 장기적 영향이 더욱 치명적일 수 있다고 지적했다. 그는 “사람들이 순간적으로 선택하는 것이 아니라 기술과 장기적으로 건강한 관계를 맺고 싶은 것이 무엇인지를 물어야 한다”고 말했다.
칸의 주장은 AI 업계가 벤치마크 경쟁에 몰두하는 동안 정작 중요한 지표를 외면하고 있다는 근본적인 의문을 제기한다. 낭비 없는 편의성과 생산성을 원하는 이용자의 단기적 선호에 부응하는 방식으로 AI가 설계되는 한, 장기적인 인간 역량 보전이나 사회적 유대 강화와 같은 가치는 뒷전으로 밀릴 수밖에 없다. AI가 교육·의료·직장 전반으로 깊게 침투하기 전에, 심리사회적 영향에 대한 체계적인 측정 기준을 마련하는 것이 시급한 과제로 부상하고 있다.














