AI 글라스, 대학 시험서 응시자 95% 능가…실사용 정확도는 24~52%

홍콩과학기술대학교(HKUST) 연구진이 AI가 탑재된 스마트 글라스의 시험 활용 가능성을 검증한 실험 결과를 공개했다. 연구진은 실제 시험과 유사한 환경에서 AI 글라스로 ‘컴퓨터 네트워크 원리’ 전공 과목 시험을 치르는 실험을 진행했으며, AI 글라스는 30분 만에 92.5점을 기록해 100여 명의 응시자 가운데 상위 5% 이내에 해당하는 성적을 거뒀다. 이는 인간 응시자의 95% 이상을 앞선 결과다. 다만 이 실험은 실제 시험장에서 적발된 부정행위 사례가 아니라, AI 글라스 기술의 가능성과 한계를 파악하기 위해 연구진이 설계한 통제 실험이다.

실험에서 AI 글라스는 카메라로 시험지를 촬영하고, 연결된 AI 모델이 문제를 분석해 답안을 생성하는 방식으로 작동했다. 시험지처럼 글자가 선명하고 조명이 일정한 환경에서는 이런 구조가 높은 정확도를 보장하지만, 일상적인 착용 상황은 사정이 다르다. arXiv는 연구자들이 정식 학술지 심사 전 결과를 공유하는 플랫폼으로 최신 동향을 빠르게 확인할 수 있는 대신 결과 해석에는 검증이 필요한데, AI 글라스의 한계를 살펴보려면 이런 통제 실험과 실사용 평가를 함께 봐야 한다는 점이 이번 사례의 핵심이다.

person holding eyeglasses — 사진: Josh Calabrese / Unsplash

실제 착용 조건에서는 성능이 크게 달라진다. 학술 논문 사전 공개 플랫폼 arXiv에 게재된 ‘WearVQA’ 연구는 스마트 글라스와 같은 웨어러블 AI 기기의 실제 사용 환경 성능을 평가했다. 연구진은 흐릿한 화면, 낮은 조명, 시야 가림 등 실제 착용 상황을 반영한 테스트를 진행했으며, 일부 멀티모달(복합 데이터 처리) AI 모델의 시각 질의응답 정확도는 24~52% 수준에 그치는 것으로 나타났다. 이미지 품질이 낮거나 복잡한 추론이 필요한 상황에서는 성능 저하 폭이 더 컸다.

결국 AI 글라스는 시험지처럼 선명하고 안정적인 환경에서는 높은 성능을 발휘할 수 있지만, 카메라 품질과 촬영 조건이 달라지는 현실적 착용 상황에서는 신뢰도가 낮아진다. AI가 빠르게 정답을 도출하는 기술 환경이 현실로 다가오면서, 교육계에서는 단순 답안 평가를 넘어 사고 과정과 문제 해결 능력을 중심으로 시험 체계를 재편해야 한다는 논의가 확산되고 있다.