Escriben Nicolas Hohn, Socio asociado de análisis McKinsey & Company / Oliver Fleming, Socio asociado de análisis McKinsey & Company / Roxanne Zhang, Consultor de ciencia de datos McKinsey & Company
- Una técnica de inteligencia artificial llamada aprendizaje por refuerzo podría ayudarnos a resolver algunos de los problemas más complejos del mundo.
- Permite que un algoritmo aprenda a realizar una tarea mediante prueba y error en un simulador o gemelo digital.
- Aplicar esta técnica para probar iniciativas de ahorro climático en un gemelo digital de la Tierra podría ayudarnos a abordar el cambio climático.
El año pasado nos embarcamos en un ambicioso proyecto con el equipo de navegación Emirates Team New Zealand para construir un robot de inteligencia artificial que pudiera navegar una versión digital de cualquier tipo de diseño de embarcación que diseñaron en condiciones de navegación del mundo real simuladas digitalmente. Esto permitiría a los ingenieros probar varios diseños de embarcaciones mucho más rápido que tener que asegurarse tiempo con los marineros humanos del equipo, que solo podían alejarse de la práctica unas pocas horas aquí y allá.
Para navegar tan bien como los mejores navegantes del mundo, el robot de inteligencia artificial necesitaba aprender a ejecutar muchas maniobras diferentes en diferentes condiciones, eligiendo el mejor rumbo para establecer bajo una amplia variedad de vientos y mares, ajustando 14 controles de barco diferentes en consecuencia, evaluando los resultados de sus decisiones, y la mejora continua de las decisiones a lo largo de horizontes a largo plazo.
Entrenamos al bot usando una técnica de inteligencia artificial llamada aprendizaje por refuerzo, que permite que un algoritmo aprenda a realizar una tarea a través de prueba y error mientras prueba acciones en un simulador o gemelo digital, y recibe retroalimentación instantánea sobre esas acciones a través de un sistema de recompensa.
Lograr que el robot navegara a un nivel de élite fue un problema muy complejo de abordar. Pero este tipo de problema complejo que tiene un entorno dinámico que contiene muchas variables y muchas acciones posibles y caminos para elegir es donde sobresale el aprendizaje por refuerzo.
El poder del aprendizaje por refuerzo
Hay aplicaciones para esto en casi todas las industrias. Por ejemplo, mientras que una vez los minoristas podían esperar razonablemente que los comportamientos pasados ??de los consumidores indicaran preferencias futuras, ahora operan en un mundo donde los patrones y preferencias de compra de los consumidores evolucionan rápidamente, más aún cuando la pandemia de COVID-19 redefine repetidamente la vida. Los fabricantes y las empresas de bienes de consumo envasados ??están bajo presión para construir cadenas de suministro dinámicas que tengan en cuenta los cambios climáticos, políticos y sociales en cualquier parte del mundo en cualquier momento. Cada uno de estos desafíos representa un problema de optimización complejo y altamente dinámico que, con los bucles de información y retroalimentación correctos, es muy adecuado para resolver con el aprendizaje por refuerzo.
Después de completar el proyecto, dimos un paso atrás para considerar cómo una técnica cada vez más viable como el aprendizaje por refuerzo podría aplicarse a los desafíos sociales urgentes. El aprendizaje por refuerzo es bueno para resolver problemas complejos de optimización y predecir la siguiente mejor acción. ¿Podría utilizarse la tecnología, por ejemplo, para identificar y priorizar áreas que necesitan desesperadamente asistencia alimentaria y optimizar su distribución en todo el mundo?
Cómo podría luchar contra el cambio climático
En el ejemplo del cambio climático, ¿podría aplicarse el aprendizaje reforzado a un gemelo digital de la Tierra para probar cómo se pueden secuenciar y combinar mejor una multitud de iniciativas de ahorro del clima en todo el mundo en un todo que se refuerce mutuamente? Varios desarrollos pueden estar convergiendo para hacer esto factible.
Primero, tenemos suficientes datos: la esfera de datos global está programada para alcanzar los 175 zettabytes para el 2025, y los satélites transmiten constantemente datos a la Tierra que pueden usarse para avanzar en nuestra comprensión de cómo y por qué está cambiando el clima. En junio de 2016, por ejemplo, GHGSat lanzó el primer satélite de alta resolución capaz de capturar mediciones atmosféricas de cualquier instalación industrial del mundo y calcular las emisiones de gases de efecto invernadero asociadas. En otro ejemplo, las imágenes satelitales habilitadas por IA permiten que NCX realice inventarios precisos de los bosques del mundo, proporcionando información que puede ayudarnos a cultivar árboles más grandes y fuertes que absorban más CO2.
El monitoreo de los océanos también ha mejorado dramáticamente. La Administración Nacional Oceánica y Atmosférica de EE.UU., por ejemplo, monitorea la temperatura, las corrientes, los niveles y la química del océano utilizando miles de boyas y flotadores que toman medidas diarias en la superficie y los niveles profundos.
En segundo lugar, algunas de las empresas más grandes del mundo se están dando cuenta de sus responsabilidades medioambientales y han puesto en marcha muchas iniciativas de conservación del clima con objetivos ambiciosos. El aprendizaje por refuerzo podría evaluar los efectos de estas iniciativas.
Algunos ejemplos:
- Microsoft se ha comprometido a invertir mil millones de dólares en medidas climáticas y eliminar las emisiones de carbono para 2030.
- Starbucks se ha comprometido a almacenar más carbono del que emite, eliminar los desechos y proporcionar más agua limpia de la que utiliza.
- Google ha cambiado a fuentes 100% renovables para su suministro de energía, utiliza un algoritmo de aprendizaje reforzado para enfriar sus centros de datos para ahorrar energía de aproximadamente un 40% y está trabajando con DeepMind para usar algoritmos ML para predecir los niveles de viento y programar las entregas de energía al cuadrícula en consecuencia.
- En McKinsey & Company, nos hemos comprometido a alcanzar un impacto climático neto cero para 2030 y ya hemos cambiado al 95% de fuentes de energía renovables y hemos compensado el 100% de nuestras emisiones de gases de efecto invernadero desde 2018.
En tercer lugar, el costo y la complejidad de implementar el aprendizaje por refuerzo están disminuyendo. Las últimas iteraciones en algoritmos de aprendizaje por refuerzo son mucho más eficientes para entrenar para realizar tareas, lo que reduce sustancialmente los costos de computación. Al mismo tiempo, el costo de la computación en sí ha disminuido significativamente. Las empresas ahora pueden acceder a sistemas especializados en la nube y pagar solo por lo que usan. Los proveedores de la nube también han intensificado sus esfuerzos para ofrecer marcos de aprendizaje de refuerzo listos para la empresa y empaquetados que se pueden implementar en forma de línea de ensamblaje para eliminar parte del trabajo manual de codificación e integración.
Por último y de forma importante, en marzo la Comisión Europea anunció su iniciativa “Destino Tierra” en la que los científicos trabajarán para crear un gemelo digital de la Tierra que permita cartografiar el cambio climático y evaluar soluciones que podrían ralentizarlo o revertirlo. La UE tiene previsto abrir el modelo de la Tierra digital para que lo utilice la industria a lo largo del tiempo. Los modelos generados por la iniciativa Destino Tierra podrían proporcionar un campo de pruebas para determinar si el aprendizaje por refuerzo podría analizar las iniciativas climáticas en todo el mundo, medir su efecto colectivo y determinar qué acciones adicionales deben tomarse para detener o revertir el cambio climático.
Esto no será fácil ni servirá como una solución milagrosa. Pero a medida que las nuevas herramientas de inteligencia artificial y otras tecnologías continúan volviéndose más viables y poderosas, debemos buscar formas de combinar esfuerzos en la industria, la academia y las instituciones públicas para ayudarnos a mover colectivamente la aguja en temas globales importantes.