La IA de Google aprende euskera, catalán y tareas más difíciles: "Es un paso hacia la IA general"
La compañía presenta su nuevo modelo de lenguaje, Gemini 3. La compañía destaca que su desarrollo mejora en codificación, comprensión multimodal, representación visual y razonamiento
“Es increíble pensar que, en solo dos años, la IA ha pasado simplemente de leer texto e imágenes a leer el ambiente”. Con esas palabras ha resumido Sundar Pichai, CEO de Google y su matriz Alphabet, lo infartada que ha vivido la industria tecnológica desde el Big Bang de la IA generativa que provocó el lanzamiento de ChatGPT a finales de 2022.
El mandamás de la multinacional californiana ha publicado esta reflexión con motivo del lanzamiento de Gemini 3, el modelo que dará vida a partir de ahora a su inteligencia artificial homónima. Es probable que el común de los mortales pueda sentirse algo perdido cuando le hablan de los modelos que una y otra compañía lanzan cada pocos meses y le cueste seguir la pista de las novedades que arroja cada uno y en qué nuevas capacidades se traduce. Una de las cosas más llamativas, en el caso de España, es que Gemini 3 está preparado por primera vez para funcionar en catalán, euskera y gallego, entre las 30 lenguas que soporta.
Pero más allá de eso, este nuevo desarrollo mejora en comprensión multimodal (manejar información en texto, vídeo, audio o imágenes), ofrece nuevas capacidades de programación, visualizaciones más complejas y una mayor interactividad, “todo ello basado en un razonamiento de vanguardia”. “Hoy damos un paso más hacia la inteligencia artificial general y lanzamos Gemini 3”, ha dicho Demis Hassabis, cofundador de DeepMind y el pope de Google en todo lo que se refiere a la inteligencia artificial.
Según Hassabis, esto significa que el modelo puede leer el contexto de un problema complejo, interpretar pistas sutiles y generar soluciones o contenidos que combinen múltiples fuentes de información de manera coherente. Gemini 3 no solo procesa información textual, sino que también entiende imágenes, vídeo y audio, lo que le permite abordar tareas que van más allá de un simple asistente de texto. Es algo que ya se llevaba tiempo viendo, pero Google asegura que ahora llega a un nuevo nivel.
Gran rendimiento en las pruebas
Google pone ejemplos concretos para ilustrar cómo funciona Gemini 3. Puede analizar un vídeo educativo largo y generar tarjetas interactivas o visualizaciones que faciliten el aprendizaje. Es capaz de traducir y organizar recetas familiares escritas a mano en varios idiomas para crear libros de cocina compartibles. Puede analizar partidos de deportes amateur, como pickleball, identificar áreas de mejora y proponer planes de entrenamiento personalizados. También puede transformar artículos académicos, vídeos o tutoriales complejos en visualizaciones o código interactivo que ayuden a comprender conceptos difíciles. En palabras de la compañía, “Gemini 3 combina comprensión visual, auditiva y textual para ofrecer soluciones más precisas, rápidas y creativas que nunca”.
En cuanto a rendimiento, Gemini 3 también impresiona en las pruebas de referencia. En LMArena alcanzó 1501 puntos, superando a Gemini 2.5 Pro por 50 puntos ELO. En evaluaciones de conocimiento complejo, como GPQA Diamond, logró 91,9 por ciento, mientras que en matemáticas estableció un nuevo récord del 23,4 por ciento en MathArena Apex. En tareas multimodales obtuvo 87,2 por ciento en comprensión de vídeo y 81 por ciento en pruebas que combinan distintos tipos de información, mientras que en la prueba SimpleQA Verified alcanzó 72,1 por ciento, lo que indica un alto nivel de fiabilidad. Según Google, estos resultados se traducen en la capacidad de resolver problemas complejos en ciencia, tecnología y educación con un alto grado de precisión.
Gemini 3 puede procesar hasta un millón de tokens en una sola interacción, lo que equivale a manejar grandes documentos, libros completos o largas conversaciones sin perder contexto. En palabras sencillas, esto le permite recordar y relacionar mucha más información de una sola vez, algo que modelos anteriores solo podían hacer a trozos.
¿En qué se traduce Gemini 3?
Más allá de los números, la compañía destaca la utilidad práctica de Gemini 3. Para usuarios individuales, puede organizar bandejas de correo electrónico, generar planes de viaje, redactar documentos complejos o crear guías interactivas. En el ámbito profesional, Gemini 3 puede automatizar informes, generar prototipos de software, crear dashboards de visualización de datos, analizar campañas de marketing y optimizar procesos internos. En educación y divulgación científica, es capaz de convertir textos académicos complejos en materiales interactivos, generar visualizaciones de experimentos y traducir contenidos a múltiples idiomas sin perder matices.
En desarrollo de software, Google afirma que Gemini 3 es “el modelo de codificación colaborativa y autónoma más avanzado que hemos creado”. Lidera la clasificación WebDev Arena y permite generar código, probarlo y validarlo de manera autónoma, aumentando la productividad y reduciendo errores. Además, la integración con la nueva plataforma Google Antigravity permite que los agentes inteligentes de Gemini 3 actúen de manera autónoma, planificando y ejecutando tareas de software, utilizando el navegador y el terminal y validando sus propios resultados. Esto convierte a la IA en un socio activo capaz de completar flujos de trabajo de principio a fin, desde organizar correos y agendas hasta desarrollar aplicaciones complejas.
Google también resalta la capacidad de Gemini 3 para la planificación a largo plazo. En simulaciones de gestión empresarial, los agentes mantuvieron decisiones coherentes durante un año de operaciones simuladas, generando mejores resultados que otros modelos de referencia. La compañía asegura que esto demuestra que Gemini 3 puede ejecutar tareas multietapa de manera consistente y fiable.
En cuanto a seguridad, la compañía sostiene que Gemini 3 es “nuestro modelo más seguro hasta la fecha”. Ha sido sometido a las evaluaciones más exhaustivas, con mejoras frente a inyecciones de peticiones y ciberataques, y ha contado con colaboración de expertos externos y organismos como el AISI del Reino Unido para garantizar su uso responsable.
El despliegue de Gemini 3 será escalonado y dependerá del tipo de usuario y de la versión del modelo. La versión estándar, Gemini 3 Pro, ya está disponible en la aplicación de Gemini, en AI Studio, la CLI de Gemini y en Vertex AI para empresas, ofreciendo todas las funciones “principales” según Google, es decir, razonamiento multimodal, generación de contenido y programación. Para el usuario de a pie, la IA se asoma al buscador con el Modo IA de Google, prometiendo respuestas más contextuales y visualizaciones dinámicas que, en teoría, deberían simplificar la vida. La versión más ambiciosa, Gemini 3 Deep Think, centrada en tareas complejas y razonamiento avanzado, solo estará disponible de momento para testers de seguridad y suscriptores de Google AI Ultra, en espera de una liberación más amplia. Según la multinacional, la diferencia entre ambos modelos está en la profundidad y la capacidad de resolución: Pro sirve para la mayoría de las tareas avanzadas, mientras Deep Think pretende enfrentarse a problemas que requieren múltiples capas de razonamiento, aunque siempre bajo la lupa del control humano.
Con Gemini 3, Google introduce una inteligencia artificial capaz de trabajar en múltiples idiomas, incluidos catalán, euskera y gallego, resolver problemas complejos, generar contenido interactivo, automatizar tareas y actuar de manera autónoma. En palabras de la compañía, esta generación marca un paso más hacia la inteligencia artificial general y los agentes inteligentes, situando a Gemini 3 como un socio activo en la vida digital de usuarios y desarrolladores, capaz de aprender, organizar, crear y planificar mientras el mundo sigue debatiendo sobre cuál es la mejor IA del momento.
“Es increíble pensar que, en solo dos años, la IA ha pasado simplemente de leer texto e imágenes a leer el ambiente”. Con esas palabras ha resumido Sundar Pichai, CEO de Google y su matriz Alphabet, lo infartada que ha vivido la industria tecnológica desde el Big Bang de la IA generativa que provocó el lanzamiento de ChatGPT a finales de 2022.