Es noticia
Ilenia, el embrión del ChatGPT español: "Sabíamos que esto tenía que ocurrir"
  1. Mundo
Código abierto y transparente

Ilenia, el embrión del ChatGPT español: "Sabíamos que esto tenía que ocurrir"

Cuatro centros de tecnología del lenguaje trabajan en inteligencia artificial entrenada en castellano, catalán, gallego y euskera con fondos europeos

Foto: La gente sale del Mobile World Congress (MWC) de Barcelona. (Reuters / Bruna Casas)
La gente sale del Mobile World Congress (MWC) de Barcelona. (Reuters / Bruna Casas)

Noviembre de 2022 pasará a la historia como el mes en que la humanidad tuvo acceso al primer modelo de inteligencia artificial generativa. El lanzamiento de ChatGPT por parte de OpenAI fue el último gran paso de la tecnología con mayor potencial de transformación económico y social. Simultáneamente, ese mes nacía el embrión del "gran modelo fundacional de lenguaje de inteligencia artificial entrenado en castellano y las lenguas cooficiales, en código abierto y transparente", anunciado por el gobierno el pasado febrero.

El proyecto de una IA en las lenguas del Estado comunicado por el presidente del gobierno, Pedro Sánchez, durante el Mobile World Congress de Barcelona puso su piedra angular a mediados de noviembre de 2022. Entonces arrancaba el Impulso de las Lenguas en Inteligencia Artificial (ILENIA), un proyecto a tres años financiado con 7,5 millones de euros de fondos europeos Next Generation a través del Proyecto Estratégico para la Recuperación y Transformación Económica (PERTE), de Nueva Economía de la Lengua (NEL).

"Nosotros, de alguna manera, nos anticipamos", dice Marta Villegas, coordinadora de ILENIA y responsable de la unidad de Tecnologías del Lenguaje del Barcelona Supercomputing Center y del Centro Nacional de Supercomputación (BSC-CNS). "Sabíamos que esto tenía que ocurrir tarde o temprano porque era absurdo que el español no estuviese bien dotado". El comentario se refiere a la diferencia abismal que hay entre los recursos en lengua inglesa y en lengua española, pese a ser una lengua tan global como aquella. Basta echarle un vistazo a los modelos generativos surgidos en los últimos años. Por ejemplo, el 90% de los datos que entrenaron a la primera versión del ChatGPT eran en inglés, y solo el 3% en español.

El resultado de este desfase no solo es que los chatbot de IA saben más expresiones en inglés y tienen un mayor conocimiento de las culturas anglosajonas, sino su impacto en el desarrollo tecnológico y social. Por un lado, esto implica una desventaja competitiva en el ámbito industrial, ya que son las corporaciones anglófonas, principalmente de EEUU, junto a las chinas, las que desarrollan la tecnología más puntera, la que genera más riqueza y más empleo. Por otro lado, la primacía de una lengua en la IA se ve cada vez más reflejada en la cotidianidad: desde el teclado predictivo de WhatsApp, hasta los sistemas de monitoreo en redes, pasando por los sesgos de recomendación de intereses y compras online o los dispositivos médicos.

Esta supremacía lingüística afecta a toda Europa. Si la diferencia entre el inglés, otras mayoritarias como el español, el francés y el alemán es abismal, aún mayor si cabe respecto al resto de las 40 lenguas europeas. Es por eso que la Unión Europea desarrolla una fuerte estrategia en torno a la Inteligencia Artificial: desde la iniciativa GenAI4EU para que la IA generativa se adopte dentro de los principales ecosistemas industriales estratégicos de la región, hasta la Ley de IA, primera regulación exhaustiva sobre IA de la historia.

"También se trata de un problema de soberanía europea, además de una cuestión de refuerzo de las lenguas oficiales de España", explica la doctora en el BSC-CNS, Marta Villegas. De los 7,5 millones de euros de este proyecto –otra de las diferencias respecto a las investigaciones estadounidenses, en las que se invierten miles de millones– solo un millón está destinado a las tareas de coordinación del BSC-CNS. El centro es clave por las posibilidades de computación de datos que ofrece su recién estrenado supercomputador MareNostrum 5, vital para mejorar la capacidad lingüística de la IA y otros retos científicos cruciales en el presente y futuro, como la proyección del cambio climático o la creación de simuladores del cuerpo humano con fines médicos.

Foto: La Policía Nacional en una imagen de archivo. (Rober Solsona / Europa Press)

El resto de la inversión se reparte entre los equipos que trabajan con las cuatro lenguas cooficiales: catalán, euskera y gallego, dos millones cada uno; y el proyecto en valenciano, dotado con medio millón. En concreto, cuatro equipos forman la red ILENIA: el propio BSC-CNS, responsable de AINA, iniciativa que desarrolla el modelo del lenguaje en catalán; el Centro Vasco de Tecnología de la Lengua (HiTZ) de la Universidad del País Vasco (UPV/EHU), responsable del proyecto IKER-GAITU, que lo hace en euskera; la Universidad de Santiago de Compostela (USC), a cargo de la iniciativa NÓS, en gallego; y el Centro de Inteligencia Digital (CENID) de la Universidad de Alicante, responsable del proyecto VIVES, en valenciano. En el horizonte de esta ambiciosa colaboración está la creación del primer modelo multilingüe de España.

"Entre nuestros objetivos está el hacer traducción automática entre todas las lenguas de España, crear un modelo de voz multilingüe ibérico y otro de texto que incorpore además lenguas europeas", resume Villegas. El futuro modelo "fundacional" no será un chatbot general como ChatGPT, sino un modelo básico de IA para entrenarlo en necesidades específicas. Para ello, el proyecto ha conseguido crear el corpus, o conjunto de texto y datos, de las lenguas de España más grande jamás visto, incluyendo el español. En total, casi 300 billones de palabras recopiladas en poco más de un año desde que arrancó ILENIA. Un trabajo esencial para entrenar modelos fundacionales donde la presencia de las lenguas oficiales sea significativamente relevante.

A las puertas del primer asistente

"Nuestro primer asistente domótico estará listo este año y disponible en open source, visibilizando así el potencial de esta tecnología y el trabajo realizado", detalla Villegas. La responsable del proyecto subraya el esfuerzo realizado por parte de cada uno de los equipos. La iniciativa catalana, AINA, por ejemplo, ha hecho una extensa campaña de recogida de voz en la plataforma Common Voice que le ha hecho posicionarse entre las lenguas con más datos, permitiendo así la función del navegador del móvil y del coche en este idioma.

El trabajo coordinado ha permitido desarrollar 'corpus paralelos' con los que crear modelos de traducción cruzada en todas las lenguas oficiales. En esto ha tenido especial importancia la labor del Centro Vasco de Tecnología de la Lengua (HiTZ) de la UPV/EHU, especializado en voz. El HiTZ no solo es el centro con más personal, el doble que el BSC-CNS, sino el decano en desarrollo de tecnología del lenguaje. El primer grupo de investigación español en la materia salió de la facultad de informática de San Sebastian. Más de 30 años después, su equipo ha creado el modelo fundacional del lenguaje más grande de España: Latxa

Foto: Esta función de Gemini no sería de pago (Foto: Unsplash)

En honor a la oveja de la que se saca el tradicional queso Idiazabal, Latxa es el modelo grande de lenguaje (LLM por sus siglas en inglés) en euskera basado en los modelos LLaMA de Meta (antes Facebook). Un modelo que ha logrado superar dos retos. Por un lado, superar los obstáculos de cómputo, para lo que usaron el superccomputador italiano Leonardo de Italia, ya que el MareNostrum 5 aún no estaba en funcionamiento. Por otro, conseguir que el sistema aprendiese en euskera, teniendo en cuenta el escaso corpus existente.

"Latxa se entrenó con unos 20 millones de libros en inglés", detalla Germán Rigau, director adjunto del HiTZ y coordinador de ILENIA en País Vasco. "El problema es que hay mucho menos texto en euskera, por falta de hablantes, publicaciones y demás". En euskera hay mil millones de palabras en corpus; esto es unas 10 veces menos que en catalán, del orden de 100 menos que en castellano y mil veces menos que en inglés. Pero el procesamiento de millones y millones de palabras ha dado resultados. "Hoy Latxa funciona mejor que Chat GPT-3.5, aunque aún le falta para que vaya también como el GPT-4", reconoce el doctor Rigau.

Si la supremacía del inglés en el desarrollo de la inteligencia artificial tiene implicaciones industriales y sociales para el resto, el impacto es mayor en el caso de las lenguas minoritarias, como el euskera. Los sistemas de IA no solo ofrecen resultados erróneos o no son tan eficaces, sino que hay peligro de extinción digital. Ya está pasando. Los estudios demuestran que la supremacía del inglés frente a otros lenguajes y culturas es más grande y evidente con la inteligencia artificial. "Quienes trabajamos en el desarrollo digital, ni siquiera lo hacemos en español, usamos el inglés porque ofrece mejores resultados", admite Rigau, alertando de que las lenguas en desuso en el espacio laboral puedan relegarse a ámbitos más marginales.

"Quienes trabajamos en el desarrollo digital, ni siquiera lo hacemos en español, usamos el inglés porque ofrece mejores resultados"

Evitar la marginación de las lenguas oficiales es una de las misiones de ILENIA "Es una responsabilidad, pero también una oportunidad", repite la coordinadora, Marta Villegas. En este sentido, el proyecto puede multiplicar oportunidades y sinergias con respecto a las comunidades hispanohablantes de todo el mundo. Esa es la visión de futuro de este gran modelo de lenguaje de IA: coordinar esfuerzos con la Asociación de Academias de la Lengua Española (ASALE); incluyendo no solo a la Real Academia Española de la Lengua, sino al resto de las 23 corporaciones repartidas por América, Filipinas y Guinea Ecuatorial.

"El lenguaje es la herramienta más poderosa de la humanidad para transmitir, manipular y almacenar información, y estos modelos son el presente y el futuro del desarrollo tecnológico", resume Germán Rigau. "Esta revolución tecnológica nos afecta a todos, por lo que hay que invertir en ella para no quedar atrás".

Noviembre de 2022 pasará a la historia como el mes en que la humanidad tuvo acceso al primer modelo de inteligencia artificial generativa. El lanzamiento de ChatGPT por parte de OpenAI fue el último gran paso de la tecnología con mayor potencial de transformación económico y social. Simultáneamente, ese mes nacía el embrión del "gran modelo fundacional de lenguaje de inteligencia artificial entrenado en castellano y las lenguas cooficiales, en código abierto y transparente", anunciado por el gobierno el pasado febrero.

Inteligencia Artificial
El redactor recomienda