Inteligencia artificial sin conocimiento humano

AlphaGo Zero gana cien partidas a su predecesor AlphaGo, que a su vez derrotó a un campeón humano de go, sin que en el proceso de aprendizaje se le ofreciesen ejemplos de partidas de seres humanos [Dilaudid].

Primavera de 2016: el programa de inteligencia artificial (IA) AlphaGo estaba preparado para el duelo hacía tanto tiempo esperado. Se tenía que enfrentar con el mejor jugador del mundo, Lee Sedol, en varias partidas. El resultado fue inequívoco: el algoritmo inteligente, que funciona de manera similar a una red neuronal, ganó cuatro de las cinco partidas. La IA derrotó al ser humano. Ahora, sin embargo, AlphaGo ha tenido que hincar la rodilla. Su balance contra un nuevo rival ha sido bastante peor que el de Sebol: cero victorias y cien derrotas. No, no fue (por desgracia) un ser humano el que realizó tan heroica hazaña. AlphaGo sucumbió ante su sucesor AlphaGo Zero. Los especialistas en computación de DeepMind, la empresa de inteligencia artificial creadora de AlphaGo y adquirida por Google, lo cuentan en Nature.

El go es un milenario juego asiático, mucho más complejo que el ajedrez; los movimientos posibles son numerosísimos: hay más configuraciones del tablero que átomos en la parte visible del universo. Hasta que AlphaGo vino, aprendió y ganó, ningún programa de inteligencia artificial había conseguido derrotar a jugadores de alto nivel. Tras el primer triunfo contra el campeón Sedol, Demis Hassabis, que dirige el desarrollo del programa, dijo esta frase: «Hemos aterrizado en la Luna». Dejaba claro lo que esa victoria representaba para él y muchos otros especialistas en computación. El go se había estado poniendo hasta ese momento como ejemplo de la inferioridad de la IA con respecto a los seres humanos. Si realmente el logro de AlphaGo cambió algo al respecto, puede todavía, como es natural, seguir siendo puesto en duda (un juego,se ha argumentado, sería en realidad uno de los retos más simples con los que la IA tendría que enfrentarse para poder equipararse a la inteligencia humana en su comportamiento cotidiano).

Pero lo cierto es que el programa de juego ahora se ha vuelto aún más listo. La nueva versión utiliza, al contrario que la antigua, solo una técnica de las empleadas en la investigación de la IA, el llamado «aprendizaje por refuerzo». El programa empieza no sabiendo prácticamente nada. La única tarea preprogramada es el refuerzo de los comportamientos que conducen a un resultado deseado (en este caso, a una ampliación de la parte que se domina en el campo de juego). En última instancia, una estrategia así lleva a la victoria cuando se realiza mejor de lo que lo hace el rival. El «aprendizaje reforzado», pues, es una técnica de entrenamiento que lleva a desarrollar un comportamiento deseado recurriendo a una estadística de recompensas.

La versión precedente, por el contrario, usaba también, además de este método de aprendizaje, el llamado «aprendizaje supervisado»; en él, el programa recibe instrucciones, dicho sea de manera simplificada. Entre ellas se puede contar, por ejemplo, en qué consiste una buena estrategia. En la práctica, de lo que se trata es de que el programa pueda analizar millones de partidas de jugadores humanos y aprender así qué táctica conducen al triunfo.

AlphaGo Zero no recibe, en cambio, ninguna directriz, ningún dato. Solo aprende de las partidas que juega contra sí mismo. Al principio solo hace movimientos al azar pero, a medida que crece el número de partidas, van teniendo cada vez más sentido. Para acabar derrotando a su predecesor, el programa necesitó solo un par de etapas de aprendizaje, en las que, eso sí, terminó casi cinco millones de partidas contra sí mismo. La IA descubrió de ese modo por sí misma algunos de los mismos principios que para jugar al go han elaborado los seres humanos, e incluso halló otros, que en última instancia suponen la diferencia con la versión anterior.

La conclusión: una IA que por completo se entrena a sí misma es claramente más lista que una que además aprende de las estrategias humanas. Lo verdaderamente importante de este desarrollo no es, sin embargo, eso. El sistema de inteligencia artificial AlphaGo Zero puede, en principio, aprender por sí mismo cualquier cosa posible: ya no lo limita un problema u objetivo determinado.

Janosch Deeg/spektrum.de

Artículo traducido y adaptado por Investigación y Ciencia con permiso de Spektrum der Wissenschaft.

Referencia: «Mastering the game of Go without human knowledge», de David Silver et al., en Nature 550, 354-359 (19 de octubre de 2017).

Loading...