Gemini 3.5 Flash, 컴퓨터 사용 기능 내장…브라우저·모바일·데스크톱 자동화 지원

구글 딥마인드(Google DeepMind)가 Gemini 3.5 Flash 모델에 컴퓨터 사용(computer use) 기능을 내장했다고 밝혔다. 이 기능은 기존에 별도의 Gemini 2.5 컴퓨터 사용 전용 모델로만 제공되던 것으로, 이번에 처음으로 메인 Gemini Flash 모델에 통합됐다. Gemini API와 Gemini Enterprise Agent Platform을 통해 개발자들이 즉시 활용할 수 있으며, 브라우저·모바일·데스크톱 환경을 가로질러 보고, 추론하고, 행동하는 커스텀 AI 에이전트 구축이 가능해졌다.

Gemini 3.5 Flash는 이미 함수 호출(function calling), 검색 그라운딩(Search grounding), 지도 연동 등의 내장 도구를 지원해왔다. 여기에 컴퓨터 사용 기능이 더해지면서 지속 소프트웨어 테스팅, 전문 애플리케이션을 넘나드는 지식 업무 자동화처럼 장기 과제와 기업 수준 자동화를 더 안정적으로 처리할 수 있게 됐다. 구글은 실제 활용 예시로 Gemini 앱의 기능 분류 목록 자동 작성, 자체 문서의 접근성 감사 등을 공개했다.

Scrabble tiles spelling out Google and Gemini on a wooden table, focusing on AI concepts. — 사진: Markus Winkler / Pexels

보안 측면에서 구글은 실제 환경에서 에이전트가 동작할 때 발생할 수 있는 프롬프트 인젝션(prompt injection) 위험에 대응하기 위해 컴퓨터 사용 전용 적대적 훈련(adversarial training)을 적용했다. 또한 기업용 두 가지 선택적 보안 장치도 함께 제공한다. 민감하거나 되돌리기 어려운 행동에 대한 사용자 명시적 확인 요구 기능과, 간접 프롬프트 인젝션이 탐지될 경우 작업을 자동 중단하는 기능이다. 구글은 이 두 장치를 보안 샌드박스, 사람의 검토, 엄격한 접근 제어와 함께 ‘심층 방어(defense-in-depth)’ 전략으로 활용할 것을 권고했다.

구글은 Gemini API와 Browserbase가 제공하는 데모 환경에서 즉시 테스트할 수 있도록 참고 구현 코드와 문서를 공개했다. 컴퓨터 사용 기능을 메인 Flash 모델에 통합한 것은 AI 에이전트가 직접 컴퓨터를 조작하는 에이전틱 AI의 확산을 가속할 수 있는 조치로, OpenAI의 오퍼레이터(Operator), 앤트로픽의 컴퓨터 사용 기능과 함께 주요 AI 기업 간 에이전트 자동화 경쟁이 심화되고 있다.