AI가 학점을 올린다, UC버클리 연구 '학습 아닌 외주' 신호

AI가 학점을 올린다, UC버클리 연구 ‘학습 아닌 외주’ 신호

UC버클리의 교육연구자 이고르 치리코프가 텍사스 소재 대형 공립 연구대학의 성적 50만 건 이상을 분석한 결과, ChatGPT가 출시된 2022년 11월 이후 글쓰기와 코딩 과제 비중이 높은 강좌에서 학점이 뚜렷하게 오른 것으로 나타났다. A학점 비율은 2022년 기준 대비 13퍼센트포인트 상승해 약 30% 증가했으며, 평균 GPA는 0.12포인트 올랐다. 특히 A마이너스·B플러스 구간이 줄어들고 A 학점으로 몰리는 분포 압축 현상도 확인됐다.

연구의 핵심 질문은 학점 상승이 실제 학습 능력 향상인지, AI가 과제를 대신 수행한 결과인지였다. 치리코프는 이를 구분하기 위해 과제가 최종 성적에서 차지하는 비중을 변수로 활용했다. AI가 학습 자체를 개선했다면 과제 비중과 무관하게 학점이 올라야 하지만, 실제 데이터는 반대를 가리켰다. 과제 비중이 중앙값을 넘는 강좌에서는 같은 AI 노출도를 가진 다른 강좌에 비해 A학점이 16퍼센트포인트 추가 상승했고, 과제 비중이 낮은 강좌에서의 효과는 통계적으로 유의미하지 않았다. 구두 발표 과제처럼 AI 효용이 낮은 영역에서는 성적 변화가 전혀 없어 위약 대조군 역할을 했다. 연구진은 이 패턴이 단순한 학습 성과나 학생 선발 변화로는 설명하기 어렵다고 밝혔다.

연구는 2018년부터 2025년까지 8개 가을 학기, 84개 학과 319개 강좌를 추적했다. 미국 대학의 성적 인플레이션 자체는 새로운 현상이 아니다. 하버드대에서는 2005년 24%였던 A학점 비율이 2025년 60.2%까지 올랐다. 그러나 기존의 성적 인플레이션은 교수 평가 체계, 대학 간 경쟁, 관대한 채점 정책 등 채점 단계의 요인에서 비롯됐다. AI는 학생이 과제를 제출하기 전, 즉 교수가 보기 전 단계에서 개입한다는 점에서 메커니즘이 다르다는 게 치리코프의 주장이다. 글쓰기·코딩 비중 강좌의 학점이 AI가 가장 잘 수행하는 영역에서 집중 상승했다는 점은 이 구분을 뒷받침한다.

학점의 신호 기능이 약해지면 고용주와 대학원 입학 담당자가 잘못된 판단을 내릴 수 있다는 것이 연구의 경고다. 더 구조적인 우려는 피드백 루프다. 대학 시절 글쓰기와 코딩 능력을 키우는 과정을 AI가 대체하면, 졸업 후 정작 AI가 가장 잘 대체하는 분야의 인재가 줄어들 수 있다는 논리다. 연구는 대안으로 감독 시험 형식 재설계나, AI 활용 자체를 투명하게 문서화하는 과제 방식 도입을 제안했다. OpenAI CEO 샘 올트먼도 최근 ChatGPT 출시 3년 반이 지나도록 교육 시스템이 의미 있는 구조적 변화를 보이지 않고 있다며 비판적 사고 능력의 퇴화를 우려한 바 있다. 노르웨이는 최근 초등학교에서 AI 도구 사용을 대부분 금지하고 중고등학교에서도 사용 범위를 제한했다.