Minecraft: un robot entrenado para jugar viendo 70.000 horas de vídeos de YouTube. Esto es lo que ha aprendido

OpenAI, la organización de investigación de inteligencia artificial fundada por Elon Musk, ha entrenado a una IA para que juegue a Minecraft casi tan bien como los humanos. Sólo me costó unas 70.000 horas de ver vídeos de YouTube.

Un artículo del blog en el que se detalla la hazaña revela que los investigadores utilizaron una técnica llamada “Video PreTraining (VPT)” para entrenar una red neuronal sobre cómo jugar a Minecraft. Para ello, recogieron 2.000 horas de muestras de datos de humanos reales que jugaban a Minecraft. Estos datos incluyen no sólo el vídeo en bruto, sino también las pulsaciones exactas de las teclas y los movimientos del ratón.

vpt minecraft
Una visión general del método VPT.

A partir de esto, los investigadores entrenaron un modelo de dinámica inversa (IDM) para predecir la acción futura en cada etapa de los vídeos. Por último, mostraron al “entrenado” IDM 70.000 horas de vídeos de Minecraft en YouTube. A continuación, el modelo fue capaz de copiar los comportamientos de los vídeos, incluida la tala de árboles para recoger troncos y la conversión de los troncos en una mesa de construcción real.

Además, el modelo realiza otras habilidades complejas que los humanos suelen hacer en el juego, como nadar, cazar animales para alimentarse y comer esa comida. También aprendió la técnica del “salto de pilar”, un comportamiento común en Minecraft que consiste en saltar repetidamente y colocar un bloque debajo de ti.

OpenAI

Los investigadores pudieron crear un “modelo base” a partir de los datos proporcionados a la IA y, a partir de ahí, perfeccionar los comportamientos o aprender otros nuevos. La IA era capaz de realizar habilidades en las primeras partidas, como fabricar herramientas de madera y piedra, saquear cofres e incluso construir refugios.

“Entrenamos una red neuronal para jugar a Minecraft de forma competente mediante un entrenamiento previo en un gran conjunto de datos de vídeo sin etiquetar de juego humano de Minecraft y una pequeña cantidad de datos etiquetados de contratistas”.

Cuantas más horas de datos se introducen en el modelo base, mejor es el rendimiento de la IA. Los investigadores incluso utilizaron el “aprendizaje por refuerzo” para “premiar” a la IA cuando superaba retos especialmente difíciles. El sistema de recompensas se utilizó con tanta eficacia que el modelo fue capaz de construir con éxito un pico de diamante, una tarea que requiere una larga secuencia de operaciones.

Se trata de una fascinante aplicación del aprendizaje automático que muestra cómo se pueden utilizar los juegos para entrenar a los ordenadores. Tal vez el modelo de IA utilizado podría incluso incorporarse a los propios juegos para proporcionar un desafío más natural, similar al de jugar contra oponentes humanos.

Fuente del artículo : Minecraft.fr

Rate this post

Deja un comentario