Es noticia
El nuevo ChatGPT de OpenAI que 'razona' diferente y trae de cabeza a los expertos
  1. Tecnología
LO MÁS AVANZADO HASTA LA FECHA

El nuevo ChatGPT de OpenAI que 'razona' diferente y trae de cabeza a los expertos

Cuando solo se habla de que las tecnológicas se han topado con un techo en el desarrollo de la IA, la compañía de Sam Altman acaba de dar un salto inesperado con o3. Pero no es la AGI

Foto: Foto: Reuters/Dado Ruvic.
Foto: Reuters/Dado Ruvic.

Imagina un mundo donde la inteligencia artificial no solo razona como un humano, sino que resuelve problemas con la misma fluidez que lo hacen nuestros cerebros. Ese futuro, o la llegada a ese hipotético escenario, ha originado una carrera millonaria en la que compiten decenas de tecnológicas y que lleva años librándose. Como si de atletas profesionales se tratara, cada gigante tech va dejando una marca que luego es superada por otra, y así sucesivamente. La meta final es lo que se conoce como AGI (Inteligencia Artificial General). Es decir, una IA que simule el pensamiento humano. El santo grial de la industria que lleva de cráneo a los ingenieros y que, en realidad, nadie sabe si es posible conseguir.

Hace unos días, OpenAI batió una nueva marca, dejando a todo el mundo con las cejas levantadas. El motivo no es otro que la presentación de su último modelo, o3. Con el lema “más cerca de la AGI”, no sólo ha superado a sus predecesores en ‘razonamiento’ lógico y resolución de problemas matemáticos, sino que ha logrado un impresionante desempeño en rendimiento de todo tipo: ciencia, programación, etc. Es como si la empresa hubiera desarrollado en pocos meses algo que triplica en utilidad lo que ya había hasta ahora. Un as en la manga que nadie esperaba. Pero calma, porque a pesar de la proeza, la AGI sigue aún muy lejos, según los expertos. Y ni siquiera se atisba desde el punto en el que corremos ahora mismo, aunque los de Sam Altman se empeñen en vendernos otra cosa.

El modelo o3 es el último de una serie de lanzamientos que siguen a los grandes modelos de lenguaje que impulsan ChatGPT. Reemplaza a o1, que la empresa presentó en septiembre. ¿Por qué omitieron el o2? "Por respeto a nuestros amigos de Telefónica", bromeó el propio Sam Altman, ya que O2 es el nombre de la filial de la operadora.

Al igual que o1, este nuevo modelo dedica tiempo a ‘reflexionar’ para ofrecer mejores respuestas a preguntas que requieren un razonamiento lógico paso a paso. Se dio a conocer hace diez días en un corto vídeo y de momento son pocos los que saben lo que realmente es capaz de hacer, ya que se ha dado acceso anticipado a un número muy limitado de personas para realizar pruebas. Lo que sí sabemos es que los de Sam Altman planean lanzar la versión "mini" de o3 a finales de enero y la versión completa más adelante.

placeholder El director ejecutivo de OpenAI, da un discurso en un evento de la compañía. (Reuters)
El director ejecutivo de OpenAI, da un discurso en un evento de la compañía. (Reuters)

“Se trata de un aumento sorprendente e importante de las capacidades de IA en cuanto a función escalonada, que muestra una capacidad de adaptación a tareas novedosa nunca antes vista en los modelos de la familia GPT”, apuntaba François Chollet, un exingeniero de Google y experto en la materia, quien apunta a que incluso podría estarse utilizando una arquitectura completamente diferente a la de sus predecesores.

Chollet es también el creador de un desafío llamado ARC-AGI (Abstraction and Reasoning Corpus for Artificial General Intelligence), una especie de test técnico para poner a prueba los modelos de IA y darle una puntuación a su desempeño. Un punto de referencia para entender qué desarrollos están más avanzados que otros o, como ellos definen, “para medir la adaptabilidad a la novedad”. Pues bien, en este reto el modelo o3 obtuvo una precisión del 76%, mientras que o1 había obtenido un 32%.

Foto: Un ordenador cuántico de IBM. (Reuters)

Las preguntas de ARC-AGI son fáciles de entender y bastante fáciles de resolver para un humano, pero siempre han supuesto un obstáculo para las máquinas. No están basadas en texto, sino que consisten en imágenes. Primero se muestra una cuadrícula de píxeles con formas de colores, seguida de una segunda versión que ha sido modificada de alguna manera. La pregunta es: ¿Qué cambia la imagen inicial en la segunda? De esta manera, prueba la formulación de patrones abstractos en el dominio visual.

Con esos sorprendentes resultados sobre la mesa, y una capacidad para adaptarse a tareas sin precedentes, la posibilidad de que esta herramienta "acabe rivalizando" con el trabajo humano a corto plazo no es descabellado, según el experto. Y lo dice alguien que siempre ha criticado el flujo constante de "artículos de prensa grandilocuentes" y las notas de prensa de las empresas que "sugieren engañosamente” que la IA a nivel humano esté cerca.

No es el único benchmark en el que se ha lucido. En otro test similar, SWE-bench Verified, este modelo puntuaba con un 71,3%, mientras que o1 lograba un 31%, Claude Sonnet 3.5 un 50,8% y Gemini 2.0 Flash un 51,8%. En otro test, Codeforces, que se centra en pruebas de programación "competitiva" asignando un ELO, OpenAI logró 2.727 puntos con o3, consiguiendo la puntuación 175 en el ranking y superando a Deepmind Alphacode 2.

¿Hemos llegado a la AGI? Los expertos creen que no. De hecho, o3 sigue sin resolver algunas tareas muy sencillas para los humanos. Más concretamente, 34 de 400 pruebas le resultaron imposibles. Algunas de ellas implican simplemente mover un cuadrado de color una cantidad de veces determinada, un patrón que rápidamente se vuelve claro para un humano. Por otro lado, una supuesta AGI incluiría muchos otros atributos de la cognición humana, como memoria episódica, planificación y, lo más importante, metacognición. Cosas que no tiene. Tampoco disponemos de una prueba sólida de lo que hace o3 sin el preentrenamiento antes de lo que nos han mostrado.

Y es demasiado caro

Ese alto rendimiento también tiene un coste. De hecho, este nuevo modelo utiliza un nivel de cómputo durante la fase de inferencia (el período de tiempo después de presionar Enter en un mensaje), nunca antes visto, lo que significa un precio más alto por respuesta. Es decir, OpenAI está ejecutando chips de inferencia más potentes o ejecutando esos chips durante períodos de tiempo más largos (de 10 a 15 minutos en algunos casos) para responder la pregunta de un usuario.

En comparación, la versión de o3 con mejor puntuación en los test utilizó más de 1.000 dólares de computación para cada tarea, mientras que la o1 utilizó alrededor de 5 dólares por respuesta y o1-mini utilizó unos céntimos. Eso representa otro gran obstáculo, y ahí es donde entrarán en juego algunas startups que abordan precisamente esto, como Groq o Cerebras, que están experimentando en el diseño de chips de IA más potentes en cuanto a inferencia y también más rentables.

Foto: El profesor de Derecho y doctor Tim W. Dornis. (Universidad de Hannover)

o3 llega en un momento en que la industria parece haberse frenado levemente desde su boom a principios de 2023 y en el que decenas de expertos afirman que la IA se ha topado con un muro. Sortearlo no será fácil, pero ya es una misión para los grandes colosos ‘tech’. Google se ha propuesto como objetivo principal para 2025 mejorar sus capacidades de IA. Noam Shazeer, uno de sus principales investigadores, ha dicho que la empresa ha desarrollado su propio modelo de razonamiento, llamado Gemini 2.0 Flash Thinking. El CEO de Google, Sundar Pichai, lo llamó "nuestro modelo más reflexivo hasta ahora".

Mientras, el cocreador de OpenAI, Noam Brown, dice que tras la revelación de su arma más poderosa tienen "todas las razones para creer que esta trayectoria continuará". Habrá que esperar a ver qué nos depara 2025, en una carrera salvaje por ver quién llega primero a la meta.

Imagina un mundo donde la inteligencia artificial no solo razona como un humano, sino que resuelve problemas con la misma fluidez que lo hacen nuestros cerebros. Ese futuro, o la llegada a ese hipotético escenario, ha originado una carrera millonaria en la que compiten decenas de tecnológicas y que lleva años librándose. Como si de atletas profesionales se tratara, cada gigante tech va dejando una marca que luego es superada por otra, y así sucesivamente. La meta final es lo que se conoce como AGI (Inteligencia Artificial General). Es decir, una IA que simule el pensamiento humano. El santo grial de la industria que lleva de cráneo a los ingenieros y que, en realidad, nadie sabe si es posible conseguir.

Inteligencia Artificial Lo mejor de EC
El redactor recomienda