Une équipe de chercheurs du laboratoire Deep Mind de Google, spécialisé dans l’intelligence artificielle, a créé un algorithme capable d’apprendre à jouer par lui-même à des jeux vidéo sur la console Atari 2600.
Et ce logiciel, baptisé « DQN », est même parvenu à atteindre au moins 75 % du score d’un bon joueur humain dans vingt-huit des quarante-neuf jeux testés, selon les résultats de l’étude publiée ce mercredi par Nature !
DQN « apprend » à jouer de façon autonome
Il existait déjà de très nombreuses intelligences artificielles sachant « jouer » aux jeux vidéo, mais jusqu’à maintenant elles étaient toutes préprogrammées et le plus souvent limitées à un seul jeu car il leur était nécessaire de connaître les « règles du jeu » pour le pratiquer.
DQN, à l’inverse, ne connaît pas les règles à l’avance. « [Le programme d’échecs] Deep Blue ou [l’intelligence artificielle championne de Jeopardy!] Watson sont des réussites impressionnantes, mais la différence-clé avec DQN, c’est qu’elles étaient en grande partie préprogrammées », expliquait Volodymyr Mnih, chercheur à Deep Mind et coauteur de l’étude, durant une conférence de presse mardi. « Ce que nous avons créé, c’est un algorithme capable d’apprendre directement de ses expériences – et donc plus proche de la manière dont les humains apprennent, et dont nos cerveaux construisent des modèles. »
L’Atari 2600 comme terrain de jeu
Pour tester les capacités d’apprentissage de DQN, les chercheurs de Deep Mind se sont tournés vers une console bien connue des années 1980 : l’Atari 2600, « la première console de jeux grand public élaborée ». Les jeux rétro de la vieille console de jeux ont permis d’avoir un environnement à la fois simple et complexe pour une intelligence artificielle : la faible résolution limite le nombre de pixels à analyser, mais les différents jeux font appel à des stratégies diverses et variées. Pour déterminer la meilleure action à entreprendre lorsqu’il joue, DQN s’appuie donc sur le compteur de score, commun à tous ces jeux d’époque, et calcule quelle action, d’après son expérience, rapportera le maximum de points.
Des résultats plutôt encourageants
L’approche basique du compteur de score a très bien fonctionné pour certains jeux (notamment le casse-briques Breakout). « C’est une très grande réussite – je n’aurais pas cru cela possible », estime Martin Butz, chercheur en intelligence artificielle à l’université de Tübingen.
« Cependant, la manière dont DQN apprend n’est pas tout à fait équivalente à la manière dont procède le cerveau humain. Cet algorithme analyse des séquences de mouvements plus qu’il ne “comprend” le fonctionnement du jeu. » Pour certains titres, en effet, DQN n’a pas « compris » comment jouer véritablement au jeu. Sur des titres comme Ms Pac-Man, l’algorithme est très loin d’égaler les scores d’un joueur humain. Le jeu de puzzle-aventure Montezuma’s Revenge s’est révélé le plus problématique pour DQN, et termine bon dernier du classement.
Les chercheurs de Deep Mind expliquent d’ailleurs dans leur article que « Les jeux dans lesquels DQN excelle sont de nature très variée (…), mais les jeux demandant des stratégies de planification à long terme constituent toujours un défi majeur pour [les intelligences artificielles], y compris DQN. » L’algorithme développé par Deep Mind n’est donc pas adapté à des jeux complexes et récents : il n’est pas encore capable d’analyser des environnements 3D riches ni d’établir des séquences de jeu très complexes, comme celles nécessaires pour finir des jeux d’aventure de type Zelda. Mais, avec du temps, l’équipe qui a créé DPN se dit confiante concernant les capacités de l’algorithme à découvrir des chemins plus sophistiqués.