La marginación del español y otras lenguas en la revolución de la inteligencia artificial
Modelos de lenguaje como ChatGPT son mucho menos competentes cuando se usan en otras lenguas que no son el inglés, dejando a muchos fuera de los enormes avances que promete
Los investigadores de Inteligencia Artificial se muestran preocupados ante la pérdida de diversidad lingüística a la que nos enfrentamos con ChatGPT y otros modelos de lenguaje similares. Sus trabajos llegan a la misma conclusión: los sistemas de IA entregan más resultados erróneos, se inventan datos o sencillamente no son tan eficaces en otros idiomas diferentes al inglés.
Estos estudios demuestran que la supremacía del inglés frente a otros lenguajes y culturas se podría estar haciendo aún más grande y evidente con la inteligencia artificial. "Una de mis mayores preocupaciones es que vamos a exacerbar el sesgo a favor del inglés y de los angloparlantes", comenta Thien Huu Nguyen, investigador de la Universidad de Oregón para Wired. "La gente seguirá la norma y no pensará en su propia identidad o cultura. Eso acaba con la diversidad. Mata la innovación".
Los modelos lingüísticos con los que trabajan los chats inteligentes recopilan miles de millones de datos extraídos de internet, libros y otros recursos. Aunque este sistema también es capaz de recabar información en otros idiomas, la mayoría de los textos se encuentran en inglés y chino debido al predominio económico y de población de estos países.
Para generar mejores respuestas en los sistemas de Inteligencia Artificial es necesario formularlas en inglés, según los estudios. Pascale Fung, directora del Centro de Investigación sobre IA en Hong Kong, ha observado, además, que estos modelos lingüísticos son buenos traduciendo otros idiomas al inglés, pero encuentran dificultades para hacerlo en la dirección contraria, sobre todo si no emplean alfabeto latino.
Fung y su equipo intentaron pedir a ChatGPT que tradujera 30 frases del inglés al indonsesio. La IA acertó 28, pero en la otra dirección apenas alcanzó los 19. Resultados similares se repitieron también con al menos otros cinco idiomas.
Por su parte, los creadores de ChatGPT, OpenAI, han reconocido en sus informes que la mayoría de los datos con los que trabajan proceden del inglés y que los esfuerzos de la empresa por afinar y estudiar el rendimiento del modelo se realizaron "con un punto de vista centrado en EEUU”.
Si no publicas en inglés, no eres relevante
El inglés ya es prácticamente una imposición en el ámbito científico, algo que podría agravarse en un futuro no muy lejano si las herramientas de investigación con IA continúan funcionando peor en otros idiomas. "Si no publicas en inglés, no eres relevante. Los que no hablan inglés terminan siendo castigados profesionalmente", lamenta Fung.
La presión por tener que investigar y publicar en inglés es cada vez mayor. Según datos de PubMed, más del 52% de la producción científica a nivel mundial se realiza en inglés y tan solo un 2% de las publicaciones están escritas en nuestro idioma. Los artículos en español se ven penalizados, reciben menos visualizaciones y tienen menor impacto en la comunidad científica.
Fung y su equipo continúan estudiando y señalando los fallos en los modelos lingüísticos, pero también se centran en recopilar otros datos en diferentes idiomas para desarrollar ‘chatbots’ verdaderamente plurilingües.
La preocupación por la falta de pluralidad también ha llegado hasta los políticos. El senador californiano Alex Padilla, que también es hispanoparlante, mostró inquietud en su intervención ante el Congreso de EEUU por la falta de equidad en los nuevos modelos lingüísticos: “Estas nuevas tecnologías son muy prometedoras para el acceso a la información, la educación y la mejora de la comunicación y debemos asegurarnos de que el idioma no se convierta en un obstáculo para estos beneficios", afirmó.
Los investigadores de Inteligencia Artificial se muestran preocupados ante la pérdida de diversidad lingüística a la que nos enfrentamos con ChatGPT y otros modelos de lenguaje similares. Sus trabajos llegan a la misma conclusión: los sistemas de IA entregan más resultados erróneos, se inventan datos o sencillamente no son tan eficaces en otros idiomas diferentes al inglés.