Es noticia
Traducir todo internet, ¿la locura o el sueño de Luis von Ahn?
  1. Tecnología
SU SISTEMA 'CROWDSOURCING' YA PUEDE TRADUCIR WIKIPEDIA EN MESES

Traducir todo internet, ¿la locura o el sueño de Luis von Ahn?

El 30 de noviembre de 2011, sin hacer demasiado ruido, un joven y brillante científico guatemalteco lanzaba al mundo Duolingo, una web aparentemente sencilla que, sin

Foto: Traducir todo internet, ¿la locura o el sueño de Luis von Ahn?
Traducir todo internet, ¿la locura o el sueño de Luis von Ahn?

El 30 de noviembre de 2011, sin hacer demasiado ruido, un joven y brillante científico guatemalteco lanzaba al mundo Duolingo, una web aparentemente sencilla que, sin embargo, en su arquitectura lógica y funcionamiento atesoraba uno de los objetivos más ambiciosos de la historia de la red: traducir todos los contenidos de internet a los idiomas más hablados del mundo. A diferencia de Google Translate, en esta ocasión no serían máquinas las encargadas del prodigio, sino millones de usuarios contribuyendo al objetivo sin saberlo, al mismo tiempo que aprenden un idioma de forma gratuita.

Cuando echó a volar Duolingo, Luis von Ahn era ya todo un veterano del ‘crowdsourcing’, un maestro en el arte de utilizar la mente y las habilidades de los usuarios de internet para objetivos complementarios a las tareas que realizan en la red. En 2009, le vendió a Google su reCAPTCHA, la compañía con la que creó el código de seguridad, hoy universal, a través del que las ‘webs’ pueden discernir si un usuario es realmente un humano o un robot con intenciones de ‘spam’. Sin darnos cuenta, cada vez que introducimos este código estamos ayudando a digitalizar libros y manuscritos antiguos. Con Duolingo, ha ido más lejos.

placeholder

Catorce meses después de su puesta en marcha, Luis von Ahn se ha prestado a repasar con Teknautas los avances de Duolingo. El sueño del guatemalteco de traducir todos los contenidos de internet aún queda lejos, pero el sistema se está preparando -y cargándose de usuarios- para poder hacerlo. En el camino, el experto en ciencia computacional se ha encontrado, no obstante, con un viejo compañero de viaje de internet: los derechos de autor.

“Por razones de derechos de autor, es ilegal traducir todo internet sin permiso. Podemos traducir páginas en Creative Commons, como Wikipedia, o que no tengan derechos de autor, pero no podemos traducir páginas que tengan ‘copyright’”, explica Luis von Ahn. 

Precisamente en este punto es donde entra en juego el modelo de negocio de Duolingo, orientado de momento a los medios de comunicación. “Por eso nuestro plan es traducir todo lo que no tenga derechos de autor totalmente gratis, pero cobraremos por traducir las cosas que tengan derechos, y los dueños del contenido tendrán que subirlo a nuestro sistema ellos mismos”, apunta el guatemalteco. Próximamente, Duolingo anunciará, en ese sentido, el acuerdo con un gran medio norteamericano. “No es The New York Times, pero sí parecido”, confirma.

“Aún no estamos traduciendo mucho contenido ‘de verdad’, ya que estamos mejorando todo el proceso y re-usando el mismo contenido. Sin embargo, con el número de usuarios que tenemos por el momento, tenemos la capacidad de traducir alrededor de 200.000 oraciones diarias, así que podríamos hacer todo Wikipedia en cosa de meses”, añade Luis von Ahn. En realidad, "si un millón de personas usaran Duolingo para aprender, toda la Wikipedia en inglés podría ser traducida al español en 80 horas", señala el guatemalteco en un vídeo divulgativo sobre el sistema.

En su momento, Google también se propuso traducir Wikipedia, pero no salió bien. “Por dos razones: la calidad no era suficientemente buena y además Wikipedia no estaba interesada en traducciones de ciertos artículos, por ejemplo los de política. Google simplemente empezó a traducirlo todo, pero Wikipedia es una comunidad y prefieren que se trabaje en conjunto con ellos y sus normas”, explica von Ahn. No es de extrañar, teniendo en cuenta el historial de errores de Google Translate, que el bueno de Jimmy Wales, el fundador de Wikipedia, no estuviese demasiado satisfecho con las traducciones.

De todas formas, el porcentaje que representa Wikipedia en referencia a todos los contenidos de la web es apenas de un 1%. Según el informe anual de Royal Pingdom, internet cerró 2012 con un total de 634 millones de páginas activas -la mayoría de las cuales generan contenidos diariamente-, y cada año se estima en 51 millones la creación de nuevos ‘sites’.

En la actualidad, Duolingo cuenta con más de un millón de usuarios en todo el mundo. Estados Unidos, Brasil y España son, por este orden, los países que más personas aportan al sistema. “En los últimos seis meses, hemos crecido un 30%. Aproximadamente, necesitaríamos 50 millones de usuarios para traducir todo internet”, apunta el científico. El sistema ya incluye el aprendizaje de inglés, español, portugués, italiano, alemán y francés. Próximamente, se añadirá el chino mandarín. 

Actualmente, en Duolingo trabajan 26 personas. Trece de ellas proceden del sector informático, cuatro profesionales son diseñadores y nueve son expertos en el aprendizaje de idomas.

Para Luis von Ahn la gran pregunta es ésta: “¿quién debería traducir determinada oración? Si en un momento dado hay 10.000 usuarios usando simultáneamente el sistema, nosotros sabemos su idioma natal, el tiempo que necesitan para traducir una frase y su porcentaje de acierto, entre otras muchas cosas. Entonces, el sistema tiene que tomar una decisión. Sería un error darle una oración fácil a un usuario avanzado, por ejemplo”.

Pero además del ambicioso objetivo de traducir la red que subyace tras el proyecto, Duolingo está revolucionando la enseñanza de idiomas, y el conocimiento que el 'site' está acumulando en base a pruebas reales con usuarios-estudiantes está empezando a interesar a prestigiosos centros universitarios. “Por primera vez en la historia podemos observar a millones de personas aprendiendo un idioma y hacer múltiples pruebas con cada una de ellas”, explica von Ahn. 

placeholder

“Acabamos de terminar un estudio que demuestra que 34 horas de uso de Duolingo son equivalentes a una clase de un semestre de universidad. Estamos optimizando el proceso de aprendizaje de idiomas, pero creemos que aún podemos mejorar”, agrega el guatemalteco.

Las conclusiones del estudio están disponibles en el ‘site’ de Duolingo, pero para conocer desde dentro los matices de los experimentos, Luis von Ahn ha querido compartir con Teknautas varios ejemplos prácticos de las pruebas que en Duolingo se realizan a diario para mejorar la eficacia del sistema. Compartimos con los lectores uno de ellos.

“La mayoría de métodos de aprendizaje tratan de enseñar todos los pronombres personales desde el principio: ‘yo’ se dice ‘I’, ‘tú’ se dice ‘you’, etcétera. Sin embargo, nos dimos cuenta de que muchas personas aprendiendo inglés desde el español tenían problemas con ‘it’, que es el pronombre de tercera persona usado para denotar cosas o animales. Ya que este pronombre no existe en español, los estudiantes estaban teniendo problemas cuando lo introducíamos muy pronto. Así que hicimos un experimento: 50% de nuestros estudiantes veían ‘it’ en la primera lección (como es comúnmente enseñado), y 50% en la quinta lección. Resulta que los que vieron ‘it’ más tarde siguieron el curso por más tiempo, y además aprendieron el idioma mejor.”

El 30 de noviembre de 2011, sin hacer demasiado ruido, un joven y brillante científico guatemalteco lanzaba al mundo Duolingo, una web aparentemente sencilla que, sin embargo, en su arquitectura lógica y funcionamiento atesoraba uno de los objetivos más ambiciosos de la historia de la red: traducir todos los contenidos de internet a los idiomas más hablados del mundo. A diferencia de Google Translate, en esta ocasión no serían máquinas las encargadas del prodigio, sino millones de usuarios contribuyendo al objetivo sin saberlo, al mismo tiempo que aprenden un idioma de forma gratuita.