AI 테스트 자동화의 생산성 역설: DOM 구조 검증 너머 지각·의도 기반 테스팅으로

플레이라이트(Playwright), 사이프레스(Cypress) 같은 현대 E2E 테스트 프레임워크는 실제 사용자 화면이 아닌 DOM(문서 객체 모델) 구조를 대상으로 검증하기 때문에 근본적인 신뢰성 한계를 안고 있다는 주장이 소프트웨어 엔지니어링 커뮤니티에서 제기됐다. AI가 테스트 코드를 수백 건 자동 생성하더라도, 그 생성의 기반이 DOM 구조라면 취약한 추상화를 대규모로 복제할 뿐이라는 것이다. 이 분석에서 핵심 개념으로 제시한 ‘지각 격차(perceptual gap)’란, 기계가 DOM을 통해 앱을 ‘파싱’하는 방식과 인간이 화면을 ‘경험’하는 방식 사이의 괴리를 가리킨다.

특히 리액트(React), 넥스트JS(Next.js) 같은 SSR 아키텍처에서는 페이지가 시각적으로 완성돼 보여도 이벤트 리스너가 아직 바인딩되지 않은 ‘하이드레이션 격차(hydration gap)’ 상태에 놓이는 경우가 있다. 이 짧은 창(window) 동안 테스트가 버튼 클릭 이벤트를 발송하면 이벤트가 그냥 사라지는 ‘유령 클릭(ghost click)’ 현상이 발생하고, 프레임워크는 이를 성공으로 보고한다. 동일 문제가 CSS 필터, useEffect 상태 초기화, 레이아웃 이동 등에서도 반복된다. 실제 CI 파이프라인에서 전역 타임아웃을 60초로 설정해 이 결함을 임시로 덮다 보면, 테스트 스위트 실행 시간이 5분에서 8분으로 늘어나는 악순환이 생긴다는 사례도 소개됐다.

An overhead view of a vintage electronics setup featuring a laptop and disks with tangled cables. — 사진: cottonbro studio / Pexels

제안된 해법은 구조 검증·지각 기반 검증·의도 기반 검증 세 차원을 동시에 충족하는 하이브리드 퍼셉추얼 파이프라인이다. 브라우저에 퍼포먼스옵저버(PerformanceObserver)를 삽입해 레이아웃 이동과 롱태스크를 실시간 추적하고 상호작용 시점을 결정하는 1단계, GPT-4o 같은 비전-언어 모델(VLM)이 셀렉터 실패 시 화면을 직접 보고 목표 요소 좌표를 반환하는 에이전트 폴백 2단계, API 응답 페이로드로 비즈니스 결과를 검증하는 의도 검증 3단계로 구성된다. 연구진은 이 구조를 적용하려면 소규모 크로스펑셔널 팀 기준으로 약 한 분기의 개발 기간이 필요하다고 밝혔다. 국내 기업의 소프트웨어 품질 조직이 AI 기반 테스트 자동화를 도입할 때, 속도 향상만이 아니라 렌더링 현실을 반영한 테스트 패러다임 전환이 필요하다는 점을 이 논의에서 참고할 수 있다.