aprendizaje por refuerzo

El gran problema matemático del que depende la existencia del ser humano

Es una cuestión a la que nos llevamos enfrentando durante toda nuestra existencia y no parece que vaya a remitir a menos que hagamos algo para solucionarlo

Foto: Foto: iStock.
Foto: iStock.

Los seres humanos somos impredecibles, pero hay algo claro: utilizamos todo lo que se encuentra a nuestro alcance para nuestro propio beneficio. Las teorías económicas y matemáticas han jugado un papel muy importante en la asignación de recursos, y desde hace más de dos siglos se debate acerca del libre mercado o si el modelo perfecto es realmente el capitalismo o aún hay en el horizonte una esperanza que nos permita vivir mejor.

Nuestro problema principal es que el capital, el trabajo y la tierra (y no solo ellos) son limitados. Nuestras necesidades, sin embargo, no. Y esta es una cuestión que no parece remitir solo. Somos cada vez más personas en el mundo por lo que la lista de problemas de asignación dinámica de recursos y sus aplicaciones diarias son infinitas. No lo pensamos mucho, pero ya sea esperando un taxi o cuando nos hacen la entrega de un producto, estamos asistiendo a esa asignación de recursos.

Como dice Warren Powell en 'BBC', ingeniero de la Universidad de Princeton que lleva estudiando el problema desde la década de los 80. "Los problemas de asignación no tienen que ver únicamente con dar a los humanos lo que quieren cuando lo desean, sino que también sirven para abordar otros conflictos más complejos, incluido el cambio climático". Duranter las últimas décadas, los investigadores han desarrollado una gama de soluciones matemáticas bastante efectivas para asignar recursos en varias industrias, de manera que puedan mantenerse al día con las demandas que nosotros exigimos. Pero el problema se ha vuelto dinámico y el paso del tiempo, así como los cambios en el escenario, requieren una solución matemática que tenga en cuenta la naturaleza cambiante e incierta del mundo real.

Un ejemplo

Para entender las fluctuaciones del paso del tiempo con un ejemplo: "Imagina que estás cocinando carne asada para tu familia y sois cuatro", indica Powell. "Lo has adornado todo y de repente tu hija dice que es vegetariana, tu pareja se retrasa y tu hijo explica que invitó gente a cenar. Luego, tu perro se escapa con la comida en la boca y tú intentas, desesperadamente, averiguar cómo vas a satisfacer las necesidades de todas esas personas. Es un ejemplo trivial, pero demuestra los desafíos a los que nos enfrentamos al abordar estos problemas. Los parámetros cambian inesperadamente tanto a corto como a largo plazo".

Las acciones de los individuos en el escenario afectan el estado futuro del sistema. A medida que más personas u opciones de comida entran en la cocina, las cosas se complican y el número de combinaciones se amplian. Es, por ejemplo, a lo que se enfrenta un hospital cuando tiene que tratar o alimentar a sus pacientes. Los recursos limitados, como los escáneres de resonancia magnética, los médicos y las enfermeras también deben asignarse. Para abordar esto, y evitar que los costes se disparen fuera de control, la administración del hospital debería implementar modelos matemáticos para ayudar a coordinar todas estas cosas.

Los hospitales, las empresas de entrega y hasta el ordenador en el que lees esto atraviesan problemas dinámicos de asignación de recursos

Y no hay que quedarse ahí, probablemente el ordenador en el que estás leyendo este artículo está luchando con algunos problemas dinámicos de asignación de recursos en este momento. Las redes de telefonía móvil y la nube dependen también de una solución a estos problemas, pues deben asignar ancho de banda y energía. Incluso las descargas y llamadas tienen prioridad. De igual manera, las empresas de entrega también atraviesan estos conflictos en la actualidad. Las interrupciones en cadena de un suministro podrían ser un problema verdaderamente grande cuando se trata de satisfacer las necesidades de la sociedad.

Otro ejemplo: nuestros suministros de energía también son cada vez más complejos y dependen de energías renovables, como la eólica y la solar. Las salidas de estas fuentes pueden fluctuar enormemente, al igual que la demanda de energía en un momento dado. El coste de la energía también varía: los precios de la electricidad pueden aumentar hasta 50 veces su promedio en un período de cinco minutos.

El problema es que la mayoría de los métodos matemáticos existentes se basan en datos históricos para hacer predicciones. En las últimas décadas, un amplio conjunto de herramientas de gestión operativa ha sido muy eficaz para abordar los problemas dinámicos de asignación de recursos, ayudando a las aerolíneas, empresas de logística y redes viales del mundo a aumentar su rendimiento de diversas maneras. Sin embargo, la incertidumbre "siguen siendo un desafío", según Powell.

Fórmula: El Aprendizaje de Refuerzo

¿Podría la Inteligencia Artificial ser la solución a estos problemas? El Aprendizaje de refuerzo parece haber abierto una puerta esperanzadora en los últimos tiempos. Se trata de un área del aprendizaje automático inspirada en la psicología conductista, cuya ocupación es determinar qué acciones debe escoger un agente de software en un entorno dado con el fin de maximizar alguna noción de "recompensa" o premio acumulado. Al intentar maximizar las recompensas y minimizar las penalizaciones, puede alcanzar rápidamente un estado óptimo.

El aprendizaje por refuerzo profundo recientemente permitió que el programa AlphaGo de DeepMind de Google derrotara al campeón mundial (humano) en Go, un juego de estrategia chino milenario, parecido a nuestras damas. El sistema comenzó sin saber nada sobre el juego, luego jugó contra sí mismo para entrenar y optimizar su rendimiento, después ganó a la persona que se había llevado todos los títulos con anterioridad. Si bien los juegos son una prueba importante para las técnicas de aprendizaje de refuerzo profundo, aprender a jugar no es el objetivo final de tales métodos. Son aplicaciones que acaban de 'nacer', como quién dice, pero abren un nuevo mundo de posibilidades.

Esta área de aprendizaje podría ser la solución al intentar maximizar las recompensas y minimizar las penalizaciones. Abre una nueva puerta

De hecho, actualmente, un equipo de investigadores en Cambridge (Reino Unido) trabajan en una startup de Inteligencia Artificial llamada Prowler.io que trata de dar otro enforque al aprendizaje automático para abordar estos problemas que hemos mencionado. Sus algoritmos proporcionan incentivos para inducir un comportamiento específico en el sistema. "En un contexto del mundo real, esto podría ser equivalente a la introducción de peajes inteligentes para incentivar a los conductores a usar caminos específicos y minimizar la congestión del tráfico y la contaminación", explica Powell.

Pero todavía hay mucho en lo que trabajar. Según Eiko Yoneki, investigadora de sistemas de datos centrados en computación en la Universidad de Cambridge: "Estamos progresando rápidamente. El uso del aprendizaje por refuerzo impulsará los problemas dinámicos de asignación de recursos, pero requiere una gran cantidad de datos para construir un modelo y aún se encuentra en una etapa experimental, especialmente en sistemas informáticos donde se deben tratar parámetros más complejos". Algo que será necesario, pues a medida que la sociedad continúa creciendo y nuestras necesidades no parecen menguar, por lo que la complejidad de los problemas de asignación y su impacto en nuestras vidas no harán más que incrementarse. De esta manera, en un futuro, no habrá que luchar por la cena en la mesa.

Alma, Corazón, Vida

El redactor recomienda

Escribe un comentario... Respondiendo al comentario #1
0 comentarios
Por FechaMejor Valorados
Mostrar más comentarios