Google ya te ha puesto entre manos lo que hace años esperábamos en el iPhone
Hace 13 años, el estreno de Siri desató las expectativas sobre las capacidades de los asistentes de voz, un globo que acabó deshinchándose. Ahora Gemini Live y dentro de poco Apple Intelligence quieren cumplir esa vieja promesa
Los Pixel 9, filtrados y enseñados hasta la saciedad antes de su presentación, incluso por la propia Google, eran la excusa. Es cierto que han entrado en todas las quinielas para ser los mejores móviles Android del año, pero en realidad fueron el cebo para tener la atención de la industria y sorprenderlos con el lanzamiento de Gemini Live, una nueva inteligencia artificial conversacional que surge como respuesta al modo de voz que OpenAI lanzó en mayo y que provocó un culebrón casi instantáneo porque sonaba demasiado parecido a Scarlett Johansson, actriz a la que Sam Altman intentó fichar sin éxito para dar vida a este invento.
Más allá de ser una especie de reivindicación de que no están tan descolgados como a veces parece, Gemini Live (que ya está disponible para los suscriptores de este servicio) es el enésimo ejemplo, quizá el más avanzado en lo que se refiere al despliegue, de cómo los grandes nombres de Silicon Valley están intentando revivir uno de sus mayores fracasos de los últimos 15 años: los asistentes de voz.
"Son tontos como una piedra", llegó a afirmar Satya Nadella, CEO de Microsoft, sobre las capacidades de Siri, Assistant o Alexa, diciendo que la IA generativa podía suponer un punto de inflexión para estas herramientas. Esa idea de tener una suerte de mayordomo digital que pudiese resolver nuestras dudas, encender las luces o activar la Roomba solo con pedirlo en voz alta cobró fuerza con el iPhone 4S.
La gran novedad de aquel fue Siri, que hizo una pequeña demostración de capacidades respondiendo sobre el tiempo o dando alguna definición. Aquello desató unas expectativas altísimas. Google y Amazon no dudaron en seguir el paso de esta tendencia con sus altavoces inteligentes. El problema es que se vendió como una moto cuando en realidad lo que tenían entre manos en ese momento era un triciclo que con el paso de los años se ha convertido, con suerte, en una bicicleta de paseo.
La mejor manera de entender cómo no se cumplieron las expectativas de los usuarios es echar un vistazo a cómo Alexa se convirtió en una trituradora de billetes. En medio de la ola de recortes que ejecutaron las tecnológicas tras los días de vino y rosas de la pandemia, se supo que la división que se encargaba de este asistente, una apuesta personal del propio Jeff Bezos, perdía unos 3.000 millones de dólares cada trimestre. ¿De dónde salían esos números rojos? En realidad era una pescadilla que se mordía la cola constantemente. Como los asistentes eran herramientas que no enganchaban al usuario, la única manera era apostar mayoritariamente por dispositivos Echo de bajo coste para tratar de mejorar la adopción (no hay que olvidar que el uso masivo era imprescindible para mejorar). Con lo que sacaban de las ventas, era imposible levantar el vuelo.
Una nueva generación
¿Cómo puede arreglar esto Gemini Live o el nuevo Siri que Apple dejará correr libremente en unos meses? Pues haciendo todo mucho más natural, desde múltiples frentes. Gemini Live, por el momento, está disponible en inglés y para suscriptores de Gemini Advanced, un plan al que la compañía pretende darle un empujón regalando doce meses gratis a aquellos que compren un modelo Pro de los últimos Pixel. En el Made By Google hemos podido verlo en funcionamiento y presenciar varias demostraciones de sus capacidades.
La experiencia, que se activará desde la aplicación de Gemini, empieza teniendo que escoger entre una de las diez voces que ofrece la herramienta. Son voces agradables y que suenan bastante humanas y que han sido generadas de forma natural, con actores de carne y hueso. Se nota en la entonación y cadencia con la que se expresa y explica las cosas. La comparación con ‘Her’, la cinta en la que Joaquin Phoenix se enamora de una IA, es inevitable, aunque esté manoseada hasta el extremo a estas alturas de la película. Rick Osterloh, el mandamás de los Pixel, Android y Chrome, ya dejó claro durante el evento que esto de generar sentimientos en los usuarios hacia estos chatbots no entraba en sus planes, aunque su jefe, Sundar Pichai, ya avisó en el Google I/O que "hay que estar preparado para ver casos así".
Una dosis extra de humanidad
Aunque no es el avance ni más llamativo ni más crucial, esta dosis extra de humanidad se agradece, especialmente, si vas a tener que tener una conversación que vaya más allá de pedirle que encienda la luz o que te diga el tiempo que va a hacer el fin de semana en Santa Pola.Una de las cosas que mejora y mucho la experiencia de hablar con Gemini es el tiempo que tarda en responder. Una de las cosas que más me desquiciaba de Alexa era ver cómo la luz que indicaba que estaba procesando el comando no se quedaba estática y tardaba varios segundos en contestarme a algo sencillo.
La latencia es clave para muchísimas tecnologías, pero todavía más para explotar los asistentes por voz para que todo sea fluido. Esto es una de las cosas en las que la inteligencia artificial generativa ha destacado desde el primer momento. Solo hace falta recordar cómo millones de personas alucinaron al ver cómo en unos pocos segundos herramientas como ChatGPT eran capaces de generar resúmenes o respuestas a nuestras preguntas.
Otro punto clave es el lenguaje natural. Gemini, el nuevo modo de voz de ChatGPT y el nuevo Siri basado en Apple Intelligence que se encuentra en estado beta, no necesitan que les hables de una manera muy concreta porque entienden la forma en la que hablamos. Esto es posible gracias a la tecnología con la que han sido entrenados, completamente diferente a la que se ututilizó para entrenar a los asistentes de voz que nos han vendido durante años. La nueva generación depende de modelos de lenguaje, mientras que Alexa, Siri o Assistant son, sin entrar en demasiados vericuetos técnicos, una enorme caja de comandos. Si no se dice uno de ellos, no funciona. Tampoco necesitan que estés utilizando una palabra de activación constantemente para hilar una conversación o una acción con otra. Tampoco que les estés introduciendo la anterior pregunta en la nueva petición constantemente.
“Antes de esto, lo que ocurría con la tecnología de voz es que tenías que pensar bien en lo que ibas a decir y luego lo decías porque necesitabas decirlo correctamente, de una forma concreta”, explicaba a este y otros medios Jenny Blackburn, vicepresidenta de experiencia de usuario, experiencia de Gemini y Google Assistant. “Ahora puedes decir lo que piensas. Y lo entenderá incluso si no lo haces del todo bien. Eso transforma la forma de interactuar, porque puedes decir lo que piensas, en tu forma de decirlo”.
Imagínense que cada vez que están hablando con alguien, sea quien sea, tu hermano, tu pareja, una amiga o tu jefe, cada vez que vaya a interrumpirle o hacerle una matización tenga que llamarle por el nombre y pedirle que se detenga y volver a plantearle lo que estaban tratando, pero introduciendo el cambio que quiere que se entienda. ¿Sería desesperante, no? Pues esta es una de las cosas que también resuelve Gemini Live, que tiene una opción que permite interrumpirle y corregirle o añadirle información.
"Hasta ahora, con la tecnología de voz tenías que pensar cómo ibas a decir las cosas. Ahora ya no"
En una de las demostraciones se mostró cómo Gemini Live podía dar ideas para cenar. Bastaría con decirle lo que hay en la nevera o de que tienes antojo y explicarle que no quieres gastar mucho tiempo. Si la receta no te convence o te encuentras con que te queda un tupper con arroz, podrías decirle que la modifique sobre la marcha, incluyendo modificaciones. Lo mismo que si le pides una ruta de una semana por el sur de España y te empieza a sugerir pueblos o playas que has visto, bastaría con que le dijeses que quitase Sevilla o Torremolinos para que rehaga la ruta.
Este modo de conversación no está pensado solo para pedirle cosas concretas, sino que sus creadores aseguran que puede utilizarse para divagar sobre una idea o un proyecto que te ronda la cabeza. En otra de las demostraciones en vivo que presencié, un ingeniero comentó que estaba nervioso por la presentación que tenía que hacer ante la prensa y charló con Gemini Live, que le sugirió varios consejos sobre cómo afrontarlo e incluso una forma de arrancar.
Este concepto de usarlo para una lluvia de ideas se refuerza con el hecho de que los Pixel Buds Pro 2 llevan también un chip Tensor para poder utilizarlo sin estar con el móvil en la mano, activando el modo manualmente. Esto podría usarse mientras estás corriendo, cuando estás tirado en el sofá o paseando por una sala de la oficina mientras miras una pizarra con apuntes. Cabe decir que no es la primera vez que se plantea una integración así, porque los auriculares de Nothing ya permiten utilizar ChatGPT.
La clave de la redención de Siri y sus amigas
Más allá de la naturalidad de la conversación, hay otros dos aspectos de la receta de esta nueva generación de asistentes propulsados por inteligencia artificial para lograr lo que no lograron sus predecesores. “Creo que gracias a dos aspectos como el contexto y la multimodalidad se abre una nueva era para estas herramientas”, confesaba a este periódico Amar Subramanya, uno de los responsables de la parte técnica de Gemini, cuando se le pregunta si la IA generativa era una “suerte de redención” de una promesa fallida como los asistentes de voz.
Pero, ¿qué diablos es el contexto y la multimodalidad? El contexto en una IA generativa es como recordarle a un amigo que está en un funeral, para que no termine contándote chistes inapropiados. Técnicamente, es la información que la IA usa para entender de qué va la cosa y generar una respuesta que encaje, en lugar de soltarte cualquier cosa fuera de lugar.
¿Y la multimodalidad? La multimodalidad es la capacidad de entender y trabajar con diferentes formatos, no solo con texto. En IA, es como invitar a tu amigo a una fiesta y asegurarte de que sabe que hay karaoke, comida y un concurso de disfraces. Básicamente, le das pistas para que pueda entender y responder usando diferentes sentidos a la vez, como texto, imágenes, video o audio, y no se quede solo cantando cuando debería estar buscando su traje de pirata.
Esto es especialmente cruciaal. ¿Por qué? Porque es lo que permitirá, grosso modo, a ChatGPT-4o al nuevo Siri o a Gemini entender lo que ven por una cámara de video en vivo o lo que hay en pantalla y responderte sobre ello.
En el caso de Gemini Live hay que aclarar que todavía no cuenta con entrada multimodal, pero Gemini Advanced o Gemini Nano sí que tienen estas capacidades y dan idea de lo que se podrá hacer dentro de poco con la voz. La compañía no ha concretado fecha, al igual que con otros idiomas además del inglés, pero habla de los próximos meses.
Por ejemplo, Gemini a día de hoy puede ver un video de YouTube que tienes en pantalla y responderte preguntas. Es lo que permite utilizar Rodea para Buscar. Con esta herramienta basta con hacer un círculo sobre una captura de pantalla y preguntar algo para identificar lo que hay en la imagen y resolver nuestras dudas. Es lo que permitirá, por ejemplo, preguntar dónde los niños dejaron las bicicletas y que las cámaras web que tienes vigilando el jardín sean capaces de localizarlas. Estas capacidades también las tienen el último modelo de lenguaje de OpenAI, así como Apple Intelligence.
En el caso de Google, por ejemplo, está utilizando estas capacidades para conectar a Gemini con diferentes servicios. Un caso de uso es el de encontrarse un cartel de un concierto y poder sacarle una foto para que consulte tu calendario y ver si tienes alguna cita ese día. También bastará con preguntarle de viva voz si has recibido algún correo importante en las últimas horas y que sea capaz de encontrártelos y resumirlos. Y así un largo etcétera. Desde la compañía insisten, sin que nadie lo pregunte, en que esos datos no se utilizan para el entrenamiento de los modelos, ni esas interacciones son revisadas por los técnicos humanos que sí chequean otro tipo de mensajes, como recuerda la propia plataforma cuando se va a utilizar.
Assistant seguirá enchufado
La irrupción de Gemini, sin embargo, no supone que Assistant se vaya a desconectar. Desde que la compañía empezó a lanzarlo progresivamente, da la opción al usuario de optar por el que más le convenga. Hay cosas, por ejemplo, que por ahora Gemini no podrá hacer por muy inteligente que sea y si podrá hacer su predecesor. ¿Qué cosas? Hasta el pasado martes, por ejemplo, no era capaz de poner una alarma o configurar un recordatorio en el calendario. Eso se debe a los plazos de programación y desarrollo de producto. Y no hay que olvidar que Gemini no deja de ser un producto tierno, de poco más de un año de edad.
Sin embargo, fuentes de la compañía explicaron que la compañía ha preparado una actualización para añadir estas funcionalidades a Gemini Advanced. Pero hay muchas otras cosas, como controlar las luces, altavoces y otros objetos inteligentes, que todavía no puede hacer. Esas mismas fuentes explican que es una evolución natural, pero que se irá avanzando progresivamente. También deslizan que es lógico que Assistant siga teniendo su espacio y que convivan, en el sentido de que Gemini es un asistente personal y hay usuarios que van a seguir prefiriendo los usos del actual asistente de voz de la compañía.
Habrá quien pase de todo esto y solo quiera controlar a grito pelado desde la cama las luces del salón cuando se le olvidan apagarlas. Por ejemplo, Apple no parece que vaya a sufrir esto, porque han planteado su IA conversacional como una evolución de Siri y no como una plataforma nueva.
Google está empezando a desplegar Gemini Live, que llegará con los Pixel 9 y también estará disponible en los Galaxy de Samsung, siempre que pasen por caja y paguen la suscripción. Aunque no ha sido la primera (ChatGPT ya lo presentó en mayo y lo liberó hace unos días), es la que va a lograr el mayor despliegue por ahora. Ser el rector de Android te da una ventaja. El siguiente asalto es el de Apple y la liberación definitiva de su inteligencia artificial, que de momento llegará a los iPhone 15 y los nuevos iPhone 16 que se presentarán el próximo mes.
Eso sí, todas las funciones que mostraron en la WWDC no llegarán de golpe y porrazo. También hay que ver cómo mueve pieza Microsoft, que hasta ahora ha ido de la mano de OpenAI y ahora empieza a trazar un camino un poco diferente. Y también está Amazon, que hace meses prometió la metamorfosis de su asistente de voz, conocido como Alexa Plus, una herramienta que se rumorea será de pago y no estará incluida en la tarifa de Prime. Cuando todo esto eche a andar, estaremos mucho más cerca de esas expectativas que se generaron cuando Siri irrumpió en el iPhone y Alexa o Assistant entraron en la vida de millones de usuarios.
Los Pixel 9, filtrados y enseñados hasta la saciedad antes de su presentación, incluso por la propia Google, eran la excusa. Es cierto que han entrado en todas las quinielas para ser los mejores móviles Android del año, pero en realidad fueron el cebo para tener la atención de la industria y sorprenderlos con el lanzamiento de Gemini Live, una nueva inteligencia artificial conversacional que surge como respuesta al modo de voz que OpenAI lanzó en mayo y que provocó un culebrón casi instantáneo porque sonaba demasiado parecido a Scarlett Johansson, actriz a la que Sam Altman intentó fichar sin éxito para dar vida a este invento.
- Tres funciones ocultas de Google Maps que debes conocer antes de irte de vacaciones R. Badillo
- Nuevos Pixel 9 y 9 Pro: la sorpresa no son los móviles de Google, son los trucos que pueden hacer Michael Mcloughlin. Mountain View (California)
- Este es el nuevo Pixel Watch 3 de Google: este reloj tendría que haber sido así desde siempre Michael Mcloughlin. Mountain View (California)