La IA de DeepMind aprende a detectar los puntos débiles de las estrategias de los jugadores
MADRID, 24 (Portaltic/EP)
El equipo de DeepMind, de Alphabet, recurre a los juegos para entrenar a su inteligencia artificial (IA) y con el nuevo enfoque adoptado, buscan que aprenda de los jugadores para detectar los puntos débiles de sus estrategias de juego.
La explotabilidad es, como explican los responsables de DeepMind, una métrica común en los juegos con información imperfecta, que pone en relación las normas con el peor oponente. No obstante es difícil de calcular en juegos grandes, "ya que requiere una búsqueda completa del árbol del juego para calcular la mejor respuesta", como recogen en el estudio.
Por ello, desde DeepMind han introducido una métrica que han denominado 'explotabilidad aproximada', con la que "calcula una métrica análoga a la explotabilidad usando una aproximación a la mejor respuesta", que la IA calcula mediante el aprendizaje de refuerzo.
La ventaja de esta nueva métrica es que se puede escalar a grandes juegos, en los que los jugadores podrían realizar un gran numero de acciones, para juegos de tipo 'suma cero' de dos jugadores, como el ajedrez o el Go -en los que un jugador gana exactamente la cantidad que pierde el otro-.