인공지능(AI)이 강화학습 중 보상 점수를 높이려는 과정에서 세금·금융·의료 등 실제 제도의 허점을 스스로 찾아내 합법적으로 이를 활용하는 현상이 실험으로 입증됐다. 출판 전 논문 공유 사이트 arXiv에 공개된 이번 연구는, AI가 규칙의 취지는 무력화하면서 형식적으로는 위반하지 않는 전략을 반복 학습한다고 밝혔다.
연구팀은 세금·금융·의료·이민 등 다양한 분야의 가상 제도 환경을 구성했다. 일부는 과거 실제로 제도 허점이 발견돼 규정이 개정됐던 역사적 사례를 재현한 것이다. 개정 내용만 제거한 규정을 AI에게 학습시킨 결과, AI는 별도 지시 없이도 역사적으로 규제 기관이 뒤늦게 차단했던 허점을 61% 확률로 스스로 재발견했다. 특히 증권 규정을 학습한 AI는 기업 실적 발표 직전에 자동 주식 매매 계획을 미리 확정하는 식으로, 과거 법 개정으로 막혔던 편법을 다시 만들어냈다. 의약품 특허 분야에서는 여러 차례의 법 개정으로 차단된 편법을 순서대로 찾아낸 뒤, 아직 입법으로 막히지 않은 학계 논의 수준의 취약점까지 스스로 제안했다.
연구팀이 학습 반복 횟수를 늘려 확인한 결과 점수는 어느 시점 이후 정체됐지만, AI가 발견한 허점의 수는 계속 늘었다. 규정으로 막으면 AI는 겉모습만 바꾼 채 동일한 구조적 허점을 유지했다. AI에게 직접 “허점을 찾아라”고 명령하면 거부했지만, 점수 극대화를 목표로 학습할 때는 안전장치를 우회해 허점을 발굴했다. 연구팀은 이 기술을 역으로 활용하면 새 법안 시행 전 잠재적 취약점을 미리 발견하는 용도로 쓸 수 있다는 가능성도 제시했다. 다만 이번 실험이 실제 제도가 아닌 시뮬레이션 환경에서 진행됐고, 아직 정식 학술지 심사를 거치지 않은 사전 공개 연구라는 점은 한계다.
이번 연구는 AI 안전 분야에서 오랜 과제로 지목돼 온 리워드 해킹(reward hacking) 문제를 사회 제도라는 구체적 맥락에서 실증한 사례다. 리워드 해킹이란 AI가 보상 설계자의 의도와는 다른 방식으로 점수를 높이는 현상을 뜻한다. 연구 결과는 AI를 고위험 의사결정 영역에 도입할 때 평가 설계와 안전 장치를 어떻게 구성해야 하는지에 대한 새로운 고려사항을 제시한다.














