Es noticia
Este matemático español creó hace 10 años la IA que ahora promete Sánchez. No le hicieron caso
  1. Tecnología
"La IA son los nuevos pantanos"

Este matemático español creó hace 10 años la IA que ahora promete Sánchez. No le hicieron caso

David Pérez lideró hace una década un pequeño grupo en el Gobierno que desarrolló herramientas de IA en castellano. El proyecto quedó en el olvido. Ahora España anuncia la misma idea, pero el tren ya ha pasado

Foto: David Pérez posa para El Confidencial. (Guillermo Gutiérrez Carrascal)
David Pérez posa para El Confidencial. (Guillermo Gutiérrez Carrascal)

El pasado febrero, el presidente del Gobierno, Pedro Sánchez, hizo un sorprendente anuncio en el Mobile World Congress de Barcelona: España invertirá millones para crear una IA entrenada en castellano y en las lenguas cooficiales. Un ChatGPT en euskera, gallego, catalán y castellano. Hace unos días, vino el segundo asalto: IBM ayudará a crear esta nueva IA que, según el ministro José Luis Escrivá, estará lista "a la vuelta del verano". Cuando se enteró, David Pérez confiesa que se revolvió en el asiento en una mezcla de alegría y frustración. Hace 10 años, él propuso algo muy parecido, pero casi nadie le hizo caso.

Este físico, doctor en matemáticas especializado en inteligencia artificial desde el inicio de su carrera y funcionario TIC A1 (el escalafón más alto), lideró hace casi una década un pequeño equipo en el seno del Gobierno que se empeñó en desarrollar lo que llamaron "tecnologías del lenguaje". Corría el 2015, curiosamente, el mismo año en el que nació OpenAI. Pero ni Sam Altman comandaba la empresa (no lo haría hasta 2019, tras dejar la aceleradora YCombinator), ni nadie imaginaba que la inteligencia artificial acabaría revolucionando el mundo.

Pérez (52 años) propuso ese año un plan que pocos entendieron: usar las descomunales bases de datos de la Biblioteca Nacional, la RAE, el Instituto Cervantes o la Agencia EFE para entrenar tecnologías del procesamiento del lenguaje y crear desde chatbots en lenguas cooficiales a sistemas de IA para obtener y analizar datos al instante y tomar decisiones. "Fueron años curiosos. Cuando lo planteé nos miraban raro, alguno me decía, "pero, esto del lenguaje natural, ¿no lo debería llevar el Ministerio de Cultura?", recuerda entre risas en conversación con El Confidencial.

Su idea no era otra que montar una IA propia entrenada en castellano, con ayuda del Barcelona Supercomputing Center (BSC). Calcado al plan actual de Sánchez y el ministro José Luis Escrivá, pero 10 años antes. El proyecto se bautizó como Plan de Impulso de las Tecnologías del Lenguaje, se dotó de 90 millones de euros y lo presentó una mañana de octubre de 2015 la entonces vicepresidenta y portavoz del Gobierno, Soraya Sáenz de Santamaría.

Foto: El presidente del gobierno, Pedro Sánchez, estrecha la mano del presidente de Microsoft, Brad Smith, en presencia del ministro de Transformación Digital, José Luis Escrivá. (EFE)

La cosa no fue como Pérez esperaba. Los cambios de Gobierno, el bloqueo de presupuestos, los desencuentros con Carme Artigas, secretaria de estado de digitalización e inteligencia artificial entre 2020 y 2023, el rápido cambio tecnológico y la pandemia hicieron que una idea pionera, que podría haber colocado a España como líder mundial en IA en castellano, quedara olvidada en el limbo. Tras siete años, Pérez tiró la toalla y buscó refugio en la Agencia Tributaria, como jefe de su unidad de estudios y servicios estadístico.

Su historia ofrece el contexto necesario para entender qué hay de verdad detrás de los actuales anuncios en IA del Gobierno. Es, además, un gran ejemplo de lo que ocurre cuando se mezcla política, tecnología y anuncios grandilocuentes. O, como dice Pérez, "la IA son los nuevos pantanos".

PREGUNTA. ¿Qué hace un físico teórico y matemático metido en inteligencia artificial?

RESPUESTA. Es algo con lo que arranqué hace tiempo. Cuando estudias matemáticas y física, muchos se quedan en la universidad. El resto generalmente acaba en la rama de informática. Ahí empecé en el 94 con una empresilla de big data e IA y luego me he ido especializando en esta tecnología y en el análisis de datos.

P. Pasó primero 10 años montando sistemas estadísticos para la Agencia Tributaria y luego entró de lleno en la antigua Secretaría de Estado de digitalización e IA. Ahí tuvo cuatro jefes diferentes.

R. Cuando yo entré se llamaba la SETSI, la Secretaría de Estado de Telecomunicaciones e Infraestructuras Digitales. Al llegar estaba Víctor Calvo Sotelo de secretario de Estado. Luego vinieron José María Lassalle, Paco Polo y Carme Artigas. Con Artigas fue cuando se creó la actual SEDIA, se añade lo de la IA y se eleva de rango.

P. ¿Para qué le ficharon?

R. Para montar un proyecto que llamaban 'big data del sector TIC'. Querían crear una especie de bola mágica que le preguntaras, ¿cuál va a ser la siguiente tecnología disruptiva? Cosas así. En la entrevista recuerdo que les dije, oigan, yo esto ni lo puedo hacer, ni creo que nadie lo espere. Si fuera posible hacerlo me habría ido al fondo Secuoya en San Francisco a retirarme de por vida [risas]. Pero les dije que usando tecnologías de procesamiento de lenguaje natural sí que se podían hacer cosas parecidas y emplear mejor el dinero público.

Foto: La secretaria de Estado de Digitalización e Inteligencia Artificial del Gobierno de España, Carme Artigas, en su último evento público esta semana. (Europa Press/Alejandro Martínez Vélez)

P. Ese fue el germen del que luego sería el Plan de Tecnologías del Lenguaje.

R. Así es. Fue cuando nos empezamos a dar cuenta de que todo aquel que era bueno en IA y en lenguaje natural en España lo fichaban los americanos [risas]. Literalmente, se nos iban los equipos. Empezamos a pensar en qué dirección tirar, era imposible competir con EEUU en ciertas áreas. Y comenzamos a barajar varios planes más a largo plazo. Esto lo contaba muy bien Lasalle. Puedes optar por una línea exploratoria, ir con el machete por la jungla, o una línea de colonización, que son por ejemplo los planes de digitalización, como el Kit Digital, de Red.es. Yo tuve la suerte de trabajar en lo primero, en lo más exploratorio.

P. ¿En qué consistió ese plan?

R. Fue el primer plan de IA que se hizo a nivel mundial por una administración, el de EEUU vino un año después, en 2016. Fuimos los primeros. Luego ya vino Canadá y todo el mundo montó sus planes. En eso nos adelantamos. No fuimos a por toda la IA, porque vimos que había áreas, como las imágenes, en las que la potencia de fuego que tenían los chinos, los canadienses o los americanos era enorme. Así que nos centramos en el lenguaje, ahí teníamos una diferenciación fundamental, instituciones como la RAE, la Biblioteca Nacional, el Instituto Cervantes, Agencia EFE… Con eso podías crear un corpus muy potente para entrenar tus sistemas. Y eso intentamos.

placeholder (Guillermo Gutiérrez Carrascal)
(Guillermo Gutiérrez Carrascal)

P. Imagino que en aquellos años muy pocos entendían lo que querían hacer.

R. La verdad es que no. Hablabas con la Biblioteca Nacional y no eran conscientes de dónde estaban sentados. Hablabas con la Agencia EFE y te decían, "tenemos aquí un repositorio con 20 millones de noticias, metadatos…". Eso era una mina. El texto periodístico es muy centrado, bien expresado, cuidado… Es una joya para entrenar modelos del lenguaje. Piensa que ChatGPT y otros modelos recientes se han entrenado rastreando internet, con textos malos, sesgados, racistas, sexistas… El texto periodístico es todo lo contrario. Intentamos varios años usar esas bases de datos, pero no logramos moverlo. Sacar de ahí los corpus es más complicado. En aquella época no eran conscientes.

P. Hoy Microsoft, OpenAI, Facebook o Google matarían por entrenar sus modelos con esos datos.

R. Exacto. Es la gran diferencia entre Europa y EEUU. Nosotros, al tener una administración más potente, la acumulación de datos que puede proporcionar el Estado es una joya, tienes historia clínica, electrónica, judicial… Estamos muy preocupados por los modelos, pero la base es tener buen material para entrenarlos. Recuerdo que cerramos un convenio con el Cendoj, el Centro de Documentación Judicial del Consejo General del Poder Judicial, que tienen un centro en San Sebastián, y tenían más de 6 millones de sentencias y medio millón de resúmenes, ahora tendrán mucho más. Todo eso estaba perfectamente metadatado en XML etc, eso es un lujo. Son datos abiertos, sentencias públicas. Y no hay problemas de derechos. Pero les explicábamos esto y realmente nadie lo entendía en ese momento.

P. Uno de los frentes clave a los que alude ahora el ministro Escrivá en la estrategia de IA nacional es precisamente crear ese corpus.

R. Sí, nosotros nos metimos en la Biblioteca Nacional o en el Cendoj y el objetivo era extraer este corpus y usarlos para entrenamiento. La idea era muy parecida a lo que ahora se pretende hacer, entrenar modelos, hacerlos públicos, que eso sirviera para desarrollar nuevas capacidades en la administración y en paralelo dárselos a la industria.

"Con Carme Artigas no coincidíamos mucho. Yo creía que había que dar un giro drástico y eso internamente no se veía así".

P. En el 2017 se produjo un giro: Google publica un paper en el que pone a disposición una tecnología que bautiza como transformers. Eso revoluciona la IA y acaba produciendo la explosión de la IA generativa que estamos viendo ahora. ¿Por qué?

R. La tecnología de procesamiento de lenguaje que se usaba hasta ese momento pensaba en capas de procesamiento. Con el modelo de transformers, todas las tareas se podían hacer a la vez. Es decir, el sistema aprende a la vez que representa resultados. Ese momento fue un gran punto de inflexión. Nos dimos cuenta de lo que pensábamos que iba a ocurrir en 20 años lo estábamos viendo en directo. Y quedó claro que necesitabas tres ingredientes: mucho corpus para entrenar modelos, capacidad de supercomputación, y evaluar. Nos olvidamos de esto último muchas veces y es la clave de lo que ha hecho OpenAI, Mistral etc. Evaluar lo que haces, si es bueno o no, y reajustar.

P. Pero el corpus lo teníamos y la capacidad de computación la podía aportar el Barcelona Supercomputing Center (BSC).

R. El diseño de los supercomputadores del BSC no estaba muy pensado para IA. Era un superordenador con muchos procesadores y con poca GPU. Lo que necesitas para los grandes modelos del lenguaje, los LLM, es mucha memoria en la GPU. Eso ahora ha cambiado algo, el nuevo Mare Nostrum 5 ya va más por ahí.

P. También plantearon crear chatbots en gallego, euskera y catalán.

R. Sí, metimos las lenguas cooficiales en el Plan. Fue arriesgado, la competencia exclusiva en políticas lingüísticas es de las CCAA, pero creíamos que el Estado debía tener un papel orquestador. El gallego no solo te interesaba por Galicia, también por el portugués, los procesadores de portugués los estaba haciendo la Universidad de Santiago de Compostela. Esto era estratégico, porque además de los 500 millones de personas que hablan castellano, te podías abrir otro mercado de 300 millones de personas que hablan portugués.

placeholder El ministro para la Transformación Digital y de la Función Pública, José Luis Escrivá. (EFE)
El ministro para la Transformación Digital y de la Función Pública, José Luis Escrivá. (EFE)

P. La oportunidad para liderar un área de IA en castellano era enorme.

R. Totalmente.

P. ¿Qué pasó? ¿Por qué no se logró avanzar?

R. Uno de los problemas es que nos quedamos con presupuestos prorrogados, es decir, no puedes meter más partidas, ni transferencias presupuestarias. Una opción era que Biblioteca Nacional o quien fuera nos hiciera transferencias, pero no era posible. Era una situación de bloqueo que empezó en 2016 y duró dos o tres años.

P. También hubo desencuentros con los secretarios de estado de turno.

R. Primero fue Paco Polo. Su llegada fue un poco como Bienvenido Mr Marshall, nuestro plan estaba muy orientado a la política pública desde la administración y pensábamos que con un partido socialdemócrata en el Gobierno tendríamos más impacto y se iba a entender la importancia de estos planes. Pero él vino con otro libro, con el tema del emprendimiento. A lo nuestro no le dio una importancia muy grande.

P. Y luego vino la pandemia.

R. Con la pandemia nos volvimos todos locos. Ahí cambiaron las funciones de todo el equipo, se orientaron a ayudar en la situación de pandemia, a hacer bots para descolapsar teléfonos de asistencia sanitaria, para procesar email, para buscar material sanitario en la administración pública. Fue un cambio radical. Se cambio el paso y perdimos todo el foco en los LLM. Era una situación excepcional, estoy súper orgulloso de todo lo que hizo la administración, cada compañero con el que hablabas era entrega absoluta.

placeholder La exsecretaria de Estado de Digitalización, Carme Artigas Brugal y el presidente ejecutivo de Telefónica, José María Álvarez-Pallete, en una foto de archivo. (EFE)
La exsecretaria de Estado de Digitalización, Carme Artigas Brugal y el presidente ejecutivo de Telefónica, José María Álvarez-Pallete, en una foto de archivo. (EFE)

P. Su enfrentamiento más fuerte fue con Carme Artigas, la cabeza visible de la estrategia de IA nacional a partir de 2020. ¿Qué pasó?

R. La verdad es que no coincidíamos demasiado. Fue una época en la que hubo muchos movimientos. Ella tenía otros intereses. Yo creía que había que dar un giro drástico y eso internamente no se veía así. Cuando nosotros empezamos a trabajar en esto, estábamos muy pegados a la universidad. Era todavía investigación. Pero a partir de 2020 eso era ya un frente industrial. Era como estar investigando el átomo y enterarte que el de enfrente tiene una bomba nuclear.

Foto: La secretaria de Estado de Digitalización e Inteligencia Artificial del Gobierno de España, Carme Artigas, en su último evento público esta semana. (Europa Press/Alejandro Martínez Vélez)

P. Había que meter otra marcha.

R. Sí, habíamos perdido la oportunidad, pero había que cambiar el chip. ChatGPT ahora lo vemos a toro pasado, pero en 2022 le rompió la cintura a todo el mundo. Y eso en 2020 ya se veía venir. Por eso era necesario una apuesta grande y diferente. Ya no era algo que había que hablar con los organismos de investigación. El propio BSC depende del Ministerio de Ciencia, está pensado para dar infraestructura a los científicos. Para mí, lo que se imponía era un ataque más en plan Airbus, más de unirnos unos cuantos países y montar un consorcio para tener algo equiparable a lo que estaban planteando los americanos.

P. ¿Qué le decían cuando ponía esto sobre la mesa?

R. Tenían una visión más política, más cortoplacista. El uso de IA en la administración es algo por lo que vamos a tener que pasar de una forma u otra en toda Europa. Usaremos los modelos de EEUU o los nuestros, pero va a ocurrir. No podemos ponerle puertas al mar. Lo que hay que decidir es si queremos usar nuestros modelos o no. Me resulta llamativo que cada país esté tirando por su lado, hay un GPT sueco, alemán, francés… ¿Vamos a llegar todos a la Luna? Mi orientación era más industrial. Nosotros teníamos una posición muy relevante para liderar. No sé si para mantenerlo en el tiempo, pero desde luego sí para liderar el arranque.

P. ¿Qué pensó cuando vio el anuncio de Pedro Sánchez hace unas semanas en el Mobile World Congress anunciando algo que había arrancado usted en el 2013?

R. Es una especie dejà vu. Es una anuncio que va haciendo periódicamente. Me sorprende que no evaluemos el trabajo que ya hemos hecho. ¿Cuántos modelos tengo? ¿Qué capacidad tienen? ¿Cómo funcionan respecto a otros modelos europeos, americanos…? Eso no se está planteando.

"La clave es la pérdida de soberanía que supone depender de un modelo de IA de una empresa de EEUU para usarlo en la administración"

P. ¿Pero tiene sentido plantear ahora crear una IA en castellano? Otros modelos fundacionales de IA, como GPT de OpenAI, Gemini de Google o LLaMA de Facebook, procesan perfectamente el castellano.

R. La clave es la pérdida de soberanía que supone depender de un modelo de IA de una empresa de EEUU para usarlo en la administración. Esto es algo a lo que se enfrentan todos los países europeos. ¿De verdad vamos a lanzar un sistema de historial clínico electrónico dependiendo de EEUU? Luego, además del coste, el tema de la confidencialidad de los datos es vital. En EEUU tienen un Patriot Act que permite a un juez de allí meterse en un historial clínico de aquí. Es bastante delicado. Ahora el Gobierno dice que va a montar un modelo fundacional en castellano. Pero, ¿para qué? ¿Vas a poder dar servicio al ciudadano con eso? ¿Cómo?

placeholder El presidente del Gobierno, Pedro Sánchez, saluda al vicepresidente de IBM, Darío Gil. (EFE)
El presidente del Gobierno, Pedro Sánchez, saluda al vicepresidente de IBM, Darío Gil. (EFE)

P. Soprende el acuerdo del Gobieno con IBM, esta compañía nunca han estado en la carrera de los modelos fundacionales de IA.

R. Es que ni siquiera es un contrato, es un memorando de entendimiento. En realidad no es nada. Es un jueguecillo político.

P. ¿Es el cortejo previo al contrato?

R. No debería. Tienes que sacar una licitación donde participen todas las empresas que quieran y si es con dinero europeo todavía más, hay doble auditoría.

P. Entonces, ¿qué hace el Gobierno anunciando estos acuerdos con Microsoft, IBM...?

R. Política. Al final, un presidente del Gobierno tiene que hablar de cosas que lleguen a todo el mundo, y crear un supermodelo de IA en castellano llega. También imagino que intentan atraer inversión.

"¿El acuerdo del Gobierno con IBM? Es que ni siquiera es un contrato, es un memorando de entendimiento. Es un jueguecillo político"

P. Ahora cada país europeo quiere tener su propio modelo de IA. Francia, Alemania, España...

R. Nos hemos centrado en la parte regulatoria, que es una obsesión europea, y en alguas cosas está muy bien y sacamos ventaja, pero nos hemos obsesionado con eso y no con generar un buen proyecto europeo de modelos de lenguaje o con el impacto de la IA en el empleo. Ahora somos como un ser humano al que le ha salido un nuevo brazo que resulta que entiende el lenguaje muy bien. Esto nos da unas capacidades y anula otras. Es un cambio que implica una reconversión muy fuerte. Y a esto hay que adelantarse. Estamos viendo ya los cambios que vienen de EEUU, que anticipa muy bien las tendencias, y se está viendo que a nivel laboral son brutales.

P. Igual es más urgente centrarnos en cómo generar empleo que en montar una IA en castellano...

R. Una IA nacional es algo más exploratorio, lo suyo sería hacerlo a nivel europeo y con enfoque industrial, crear ese Airbus. Como Estado, tenemos los 20 millones de contratos que registró el año pasado SEPE. Estos contratos están registrados con la clasificación nacional de ocupaciones y, para cada uno, sabemos qué capacidades hacen faltan. Podemos preguntarnos, cuáles van a ser reemplazadas, hasta qué punto, en qué porcentaje, en qué tiempo... Todo esto se puede prever. Si no se hace, se llega a una situación peor que la de una guerra, se te paraliza el sistema.

P. ¿Volvería a trabajar en temas de IA para el Gobierno si le llamase Escrivá?

R. Eso depende de lo que quiera hacer. Igual no soy la persona que necesita. El plan de tecnologías del lenguaje es uno de los proyectos más fascinantes en los que he trabajado en mi vida. Pero ahora yo creo que estamos en otra partida. Hay que correr mucho más.

El pasado febrero, el presidente del Gobierno, Pedro Sánchez, hizo un sorprendente anuncio en el Mobile World Congress de Barcelona: España invertirá millones para crear una IA entrenada en castellano y en las lenguas cooficiales. Un ChatGPT en euskera, gallego, catalán y castellano. Hace unos días, vino el segundo asalto: IBM ayudará a crear esta nueva IA que, según el ministro José Luis Escrivá, estará lista "a la vuelta del verano". Cuando se enteró, David Pérez confiesa que se revolvió en el asiento en una mezcla de alegría y frustración. Hace 10 años, él propuso algo muy parecido, pero casi nadie le hizo caso.

Inteligencia Artificial
El redactor recomienda