Google le pone ojos a Gemini y ya es capaz de describir lo que ve. Me parece la mejor novedad en años
Con el salto adelante dado tras evolucionar Google Assistant hasta Gemini pasando por el extinto Google Bard, la IA de la empresa se encuentra a un nivel competitivo. Y no solo en modelos multimodales, también en las herramientas que los aprovechan: Gemini live es lo más próximo que tiene Google a un asistente humano. De hecho, lo es más que nunca: ahora puede ver. Hasta hace poco la inteligencia artificial tenía ojos en diferido, ya que podíamos subirle fotos o vídeos para que nos diera respuesta en función a ellos. Con la llegada de las funciones en tiempo real la cosa cambia, ya que aplicaciones como ChatGPT, y ahora Gemini, analizan lo que ve la cámara para dar respuestas al vuelo. Casi como haría una persona; si no fuera por la manía de preguntar constantemente. «¿Qué es lo que tengo delante?» Gemini Live lo analiza y lo explica al vuelo Izquierda, Gemini Live cámarta; derecha, acceso a compartir pantalla con gemini Gemini Live es el asistente en tiempo real al que se accede pulsando sobre el icono de audio en la ventana flotante de la IA. Tras hacerlo podemos hablar directamente con Gemini para mantener una conversación, todo con una experiencia que se acerca mucho a interactuar con una persona. En Xataka Android Mientras ChatGPT quita funciones a los usuarios gratuitos, Google hace todo lo contrario: ahora Gemini 2.5 Pro funciona gratis Con la función de Gemini live Camera (antes Project Astra), Google da un enorme salto adelante en las capacidades de interacción con su IA generativa. Al abrir el modo de cámara podemos preguntarle a Gemini qué ve, cuál es el edificio que tenemos delante, cómo se resuelve un problema matemático y cualquier otra cosa que no entienda nuestro cerebro. Que podamos pedirlo con un lenguaje natural facilita enormemente el uso. Gemini Live ayudándome a resolver el cubo de Rubik La nueva herramienta de cámara se encontraba en despliegue y ya pude probarla: actualmente llegó a una buena parte de Android, tanto a los Google Pixel como a otras marcas. Basta con abrir la interfaz de Gemini y pulsar sobre el icono de ondas sonoras: el nuevo botón de cámara abre la puerta a los ojos de IA. Además, también está disponible el modo de compartir pantalla: Gemini puede identificar todo lo que aparece en tu móvil. El modo cámara de Gemini Live se encuentra desplegándose a todos los teléfonos. Funciona en español y necesita acceso a la cámara del teléfono Lo he estado probando y la experiencia fue muy positiva: Gemini identifica todo lo que está delante de la cámara, incluso objetos que son complicados de distinguir. El lenguaje es claro, esto facilita el entendimiento de la explicación. Y le veo una clara funcionalidad: Gemini podría convertirse en los ojos de una persona invidente; si no fuera porque se detiene constantemente a preguntar. No conseguí hacerla menos preguntona, ni siquiera guardando mi petición en la memoria de la IA. Perfecto si no se detuviera constantemente a preguntar Gemini Live necesita acceso al micrófono, la vista añade el permiso a cámara y la identificación de patalla requiere capturarla Me parece una maravilla para ir de viaje, por ejemplo: basta con situarme delante de un edificio que no conozco para que me diga cuál es y me explique su historia, horarios de visita, precios... Mucho más rápido y eficaz que hacer una búsqueda o utilizar Google Lens, lo que llevo usando hasta la fecha. El inconveniente que le veo es que Gemini Live no funciona en modo autónomo. En Xataka Android Ya he probado el "ChatGPT europeo". Me ha quedado claro por qué vamos por detrás en la batalla de la IA Dado que el chatbot está formulado para consultar la siguiente instrucción al usuario, la función de cámara interrumpe constantemente la explicación para preguntar. Esto hace que su función de guía visual quede mermada; por más que baste con ir pidiéndole a Gemini que siga mirando. En cuanto a resultados, no tengo nada que reprocharle a Google: están a un nivel sobresaliente. El modo de cámara de Gemini Live está al nivel del que lleva unos meses afincado en ChatGPT: ambos explican bien lo que les rodea y son tan resueltos como precisos Respecto a la competencia, ¿difiere mucho la cámara de Gemini Live con respecto a la de ChatGPT? Pues lo cierto es que no, ambas son muy similares. Gemini se muestra tan efectivo como ChatGPT, es igualmente claro con las explicaciones, las dos se detienen constantemente a preguntar y aplican toda la inteligencia de sus modelos a resolver los problemas que tienen ante la cámara. La cámara en vivo allana el terreno a una incontable cantidad de ventajas. Aparte de hacer de guía, Gemini Live es un traductor de bolsillo, un profe

Con el salto adelante dado tras evolucionar Google Assistant hasta Gemini pasando por el extinto Google Bard, la IA de la empresa se encuentra a un nivel competitivo. Y no solo en modelos multimodales, también en las herramientas que los aprovechan: Gemini live es lo más próximo que tiene Google a un asistente humano. De hecho, lo es más que nunca: ahora puede ver.
Hasta hace poco la inteligencia artificial tenía ojos en diferido, ya que podíamos subirle fotos o vídeos para que nos diera respuesta en función a ellos. Con la llegada de las funciones en tiempo real la cosa cambia, ya que aplicaciones como ChatGPT, y ahora Gemini, analizan lo que ve la cámara para dar respuestas al vuelo. Casi como haría una persona; si no fuera por la manía de preguntar constantemente.
«¿Qué es lo que tengo delante?» Gemini Live lo analiza y lo explica al vuelo

Gemini Live es el asistente en tiempo real al que se accede pulsando sobre el icono de audio en la ventana flotante de la IA. Tras hacerlo podemos hablar directamente con Gemini para mantener una conversación, todo con una experiencia que se acerca mucho a interactuar con una persona.
Con la función de Gemini live Camera (antes Project Astra), Google da un enorme salto adelante en las capacidades de interacción con su IA generativa. Al abrir el modo de cámara podemos preguntarle a Gemini qué ve, cuál es el edificio que tenemos delante, cómo se resuelve un problema matemático y cualquier otra cosa que no entienda nuestro cerebro. Que podamos pedirlo con un lenguaje natural facilita enormemente el uso.

La nueva herramienta de cámara se encontraba en despliegue y ya pude probarla: actualmente llegó a una buena parte de Android, tanto a los Google Pixel como a otras marcas. Basta con abrir la interfaz de Gemini y pulsar sobre el icono de ondas sonoras: el nuevo botón de cámara abre la puerta a los ojos de IA. Además, también está disponible el modo de compartir pantalla: Gemini puede identificar todo lo que aparece en tu móvil.
Lo he estado probando y la experiencia fue muy positiva: Gemini identifica todo lo que está delante de la cámara, incluso objetos que son complicados de distinguir. El lenguaje es claro, esto facilita el entendimiento de la explicación. Y le veo una clara funcionalidad: Gemini podría convertirse en los ojos de una persona invidente; si no fuera porque se detiene constantemente a preguntar. No conseguí hacerla menos preguntona, ni siquiera guardando mi petición en la memoria de la IA.
Perfecto si no se detuviera constantemente a preguntar

Me parece una maravilla para ir de viaje, por ejemplo: basta con situarme delante de un edificio que no conozco para que me diga cuál es y me explique su historia, horarios de visita, precios... Mucho más rápido y eficaz que hacer una búsqueda o utilizar Google Lens, lo que llevo usando hasta la fecha. El inconveniente que le veo es que Gemini Live no funciona en modo autónomo.
Dado que el chatbot está formulado para consultar la siguiente instrucción al usuario, la función de cámara interrumpe constantemente la explicación para preguntar. Esto hace que su función de guía visual quede mermada; por más que baste con ir pidiéndole a Gemini que siga mirando. En cuanto a resultados, no tengo nada que reprocharle a Google: están a un nivel sobresaliente.
Respecto a la competencia, ¿difiere mucho la cámara de Gemini Live con respecto a la de ChatGPT? Pues lo cierto es que no, ambas son muy similares. Gemini se muestra tan efectivo como ChatGPT, es igualmente claro con las explicaciones, las dos se detienen constantemente a preguntar y aplican toda la inteligencia de sus modelos a resolver los problemas que tienen ante la cámara.
La cámara en vivo allana el terreno a una incontable cantidad de ventajas. Aparte de hacer de guía, Gemini Live es un traductor de bolsillo, un profesor, identifica plantas, puede conversar en función de lo que ambos estamos viendo... Me parece un salto enorme para la IA generativa y la demostración de que una herramienta bien creada puede ser de ayuda para cualquiera.
Funciona muy bien, pero tiene un problema: los modos de cámara y de compartir pantalla con Gemini solo están disponibles para suscriptores de Gemini Advanced. Seguramente no tarden en llegar a todos los usuarios, ya que Google suele hacer gratuitas las herramientas de IA. Es cuestión de tiempo.
Imagen de portada | GPT-4o en ChatGPT editada
En Xataka Android | Ni Gemini ni Google Assistant: llevo una semana con ChatGPT como asistente de voz en Android. Tengo buenas y malas noticias
-
La noticia
Google le pone ojos a Gemini y ya es capaz de describir lo que ve. Me parece la mejor novedad en años
fue publicada originalmente en
Xataka Android
por
Iván Linares
.