Google integra Computer Use en Gemini 3.5 Flash para crear agentes capaces de interpretar y ejecutar acciones en navegadores, móviles y escritorios.
Google ha integrado Computer Use directamente en Gemini 3.5 Flash. Esta capacidad permite crear agentes que entienden interfaces visuales y ejecutan acciones en navegadores, aplicaciones móviles y entornos de escritorio. Hasta ahora, Google la ofrecía mediante un modelo específico de Gemini 2.5.
El agente trabaja a partir de una captura de pantalla y del historial de acciones. Gemini analiza lo que aparece en la interfaz y devuelve una acción estructurada, por ejemplo pulsar en unas coordenadas, escribir texto, desplazarse o navegar. La aplicación que utiliza la API ejecuta esa acción, genera una nueva captura y la devuelve al modelo para continuar el proceso.
Este ciclo permite completar tareas compuestas por varios pasos sin depender exclusivamente de integraciones mediante API. Google menciona usos como probar software, rellenar formularios, trabajar con aplicaciones internas y automatizar procesos que combinan diferentes interfaces.
Cada acción generada incluye una explicación de su intención. Esto permite que el sistema que controla el agente registre lo que intenta hacer, aplique reglas antes de ejecutar la acción o solicite confirmación al usuario.
Google incorpora políticas de seguridad configurables para bloquear determinadas acciones o dominios. También ofrece detección opcional de posibles instrucciones maliciosas introducidas dentro de las páginas y mecanismos para exigir confirmación humana antes de realizar acciones sensibles.
La integración en Gemini 3.5 Flash sustituye la necesidad de utilizar el modelo independiente Gemini 2.5 Computer Use. Según Google, el nuevo modelo mejora la capacidad para operar interfaces y ofrece menor latencia, algo relevante cuando un agente debe realizar muchos pasos consecutivos.
Computer Use está disponible mediante la API de Gemini y Gemini Enterprise Agent Platform. Los desarrolladores pueden consultar la documentación oficial para configurar el bucle de capturas, acciones, políticas y confirmaciones.