Minecraft: um robô treinado para jogar assistindo a 70.000 horas de vídeos do YouTube. Eis o que aprendeu

OpenAI, a organização de pesquisa de inteligência artificial fundada por Elon Musk, treinou uma IA para jogar Minecraft quase tão bem quanto humanos. Foram necessárias apenas cerca de 70.000 horas de visualização de vídeos do YouTube.

Um post no blog detalhando o feito revela que os pesquisadores usaram uma técnica chamada “Video Pre Training (VPT)” para treinar uma rede neural sobre como jogar Minecraft. Para fazer isso, eles coletaram 2.000 horas de amostras de dados de humanos reais jogando Minecraft. Estes dados incluem não apenas o vídeo em bruto, mas também as teclas pressionadas e os movimentos exatos do mouse.

vpt minecraft
Uma visão geral do método VPT.

A partir disso, os pesquisadores treinaram um modelo de dinâmica inversa (IDM) para prever as ações futuras em cada etapa dos vídeos. Finalmente, eles mostraram as 70.000 horas “treinadas” do IDM de vídeos do YouTube do Minecraft. Então o modelo foi capaz de copiar os comportamentos dos vídeos, incluindo o corte de árvores para coletar toras e transformar as toras em uma verdadeira mesa de construção.

Além disso, o modelo executa outras habilidades complexas que os humanos freqüentemente fazem na caça, tais como nadar, caçar animais para se alimentar e comer esse alimento. Também aprendeu a técnica do “salto em coluna”, um comportamento comum em Minecraft que envolve saltar repetidamente para cima e colocar um bloco debaixo de você.

OpenAI

Os pesquisadores foram capazes de criar um “modelo base” baseado nos dados fornecidos à IA e, a partir daí, refinar os comportamentos ou aprender novos comportamentos. A IA foi capaz de realizar habilidades de jogo precoces, como fazer ferramentas de madeira e pedra, saquear baús e até mesmo construir abrigos.

“Treinamos uma rede neural para jogar Minecraft de forma competente, pré-treinando-o em um grande conjunto de dados de vídeo não rotulado de Minecraft humano e uma pequena quantidade de dados rotulados do contratante”.

Quanto mais horas de dados forem alimentadas no modelo base, melhor será o desempenho da IA. Os pesquisadores até usaram o “aprendizado de reforço” para “recompensar” a IA quando ela enfrentava desafios particularmente difíceis. O sistema de recompensa foi utilizado tão eficazmente que o modelo foi capaz de construir com sucesso uma picareta de diamante, uma tarefa que requer uma longa seqüência de operações.

Esta é uma aplicação fascinante da aprendizagem de máquinas que mostra como os jogos podem ser usados para treinar computadores. Talvez o modelo de IA usado pudesse até ser incorporado aos próprios jogos para proporcionar um desafio mais natural, semelhante ao de jogar contra adversários humanos.

Fonte do artigo : Minecraft.fr

5 / 5 - (2 votes)

Deixe um comentário