Los chatbots como
Gemini y
ChatGPT podrían ser solo la punta del iceberg en la revolución de la inteligencia artificial (IA). Todo apunta a que el siguiente gran avance de esta industria llegará con los agentes: programas diseñados para tomar el control de sistemas o aplicaciones y llevar a cabo una amplia variedad de tareas. Google acaba de dar un paso importantísimo en esta dirección.
El gigante de Mountain View ha presentado este miércoles a Project Mariner (anteriormente conocido como Project Jarvis). Se trata de un agente de IA diseñado para comprender lo que aparece en la pantalla del navegador y realizar acciones en nombre del cliente. El mismo está basado en
Gemini 2,0, la versión más reciente de la familia de modelos de lenguaje de la compañía.
Google explica que Project Mariner tiene la capacidad de interactuar con páginas web gracias a una extensión experimental accesible en Chrome. En primer lugar, el sistema analiza las instrucciones del usuario (escritas o a través de la voz). A continuación intenta realizar las peticiones solicitadas analizando los píxeles, el texto de las páginas, el código, las imágenes e incluso los formularios.
En un vídeo de demostración vemos una ventana de Chrome con una hoja de cálculo abierta que contiene los nombres de varias compañías. Una integrante del equipo de Google DeepMind le pide al agente que tome la lista de las compañías y que busque sus páginas web para extraer un correo electrónico de contacto.