O TikTok, rede social, é comum encontrar “threads”, ou seja, tipos de vídeos que viralizam. Contudo, um conteúdo está fazendo sucesso, e difere-se de todos os outros da plataforma: uma inteligência artificial (IA) tentando zerar o famoso jogo Mario Bros
Nesse sentido, ao longo da última semana, os usuários têm transmitido ao vivo as tentativas do chamado Rupert, de zerar um dos jogos mais queridos do mundo. Rupert está se saindo muito bem, inclusive, e já venceu o nível 2. Assista aqui.
A inteligência artificial, Rupert, é um sistema de algoritmos de aprendizado de máquina que melhora observando seus próprios erros. Ele tem um objetivo definido: chegar ao outro lado do nível.
Rupert, juntamente com outro jogador de Mario IA transmitindo no TikTok chamado George, está usando um programa de código aberto chamado MarI/O. Este programa foi construído por Seth Hendrickson, também conhecido como SethBling. MarI/O é uma janela para entender como os modelos de IA funcionam.
Como Rupert, a inteligência artificial, funciona?
Rupert utiliza uma abordagem de aprendizado de máquina para melhorar suas habilidades no jogo Super Mario World. Portanto, conforme já mencionado, seu objetivo é claro: chegar ao outro lado do nível e passar de fase. Para alcançar esse objetivo, ele sabe quais botões pode pressionar e pode ver o que está acontecendo na tela.
Ao contrário de um jogador humano, Rupert não começa com suposições preconcebidas sobre o jogo. Por exemplo, ele não sabe inicialmente que deve evitar os Koopas ou que não deve cair de um penhasco. Em vez disso, ele tenta diferentes ações de forma quase aleatória.
Desse modo, para cada ação que Rupert toma, ele recebe um feedback. Se uma ação o ajuda a avançar no jogo, ele recebe um feedback positivo. Se uma ação resulta em sua morte no jogo, ele recebe um feedback negativo. Rupert lembra o que funcionou e o que não funcionou com base nesse feedback.
Gerações de Rupert
Rupert é modelado após a evolução no sentido de que ele usa o conceito de “espécies” e “gerações”. Ele tenta uma estratégia particular para cada espécie, que dura de duas a seis tentativas. A cada 50-100 espécies, a IA compila o que aprendeu em uma “geração”.
Enquanto joga, Rupert recebe uma pontuação de “aptidão” (fitness). A aptidão aumenta com base em quão longe Mario avança para a direita e na rapidez com que ele chega no objetivo final.
As gerações com maior aptidão são selecionadas para serem “procriadas” para gerações futuras, o que significa que a IA constrói com base no comportamento e padrões que funcionaram e começam de novo.
Portanto, com o tempo, ao observar seus erros e acertos, Rupert evolui e melhora suas estratégias. Por exemplo, ele levou 57 gerações para vencer o primeiro nível, mostrando que, embora o processo possa ser lento, ele é eficaz.
$100 de bônus de boas vindas. Crie sua conta na melhor corretora de traders de criptomoedas. Acesse ByBit.com