Accéder au contenu principal

Cette intelligence artificielle a appris à jouer à "Mario Bros" grâce à sa curiosité

Hop, un champignon vert qui encourage la curiosité de l'IA.
Hop, un champignon vert qui encourage la curiosité de l'IA. Nintendo

Un scientifique californien a mis au point une intelligence artificielle d'un nouveau genre : au lieu d'apprendre à jouer parce qu'on lui a demandé, celle-ci est poussée à l'exploration par sa curiosité naturelle.

Publicité

Vous vous souvenez de vos premiers émois de joueur ? Mais si, la première fois que vous avez pris en main un "Mario" ou un "Zelda" et que vous aviez envie, non pas de faire le meilleur score possible, mais d’explorer le monde qui se déroulait sous vos yeux. Et bien, sachez que quelque part sur la planète, une intelligence artificielle ressent exactement la même chose que vous, c'est-à-dire de la curiosité pour l'inconnu.

VOIR AUSSI : Une école de commerce parisienne va utiliser la reconnaissance faciale et l'IA pour repérer les étudiants pas assez attentifs

Cette IA, créée par Deepak Pathak, un scientifique de l’Université Berkely en Californie, est capable d’explorer toute seule un niveau du premier Mario Bros, sorti sur NES. Bon ok, l’histoire, racontée par le site New Scientist, pourrait ne pas sembler être très impressionnante. Après tout, cela fait déjà quelques années que des IA sont capables de jouer et de gagner contre des humains aux jeux vidéo.

Sauf qu’ici, l'algorithme est naturellement curieux. Pour faire simple, l’IA emmagasine des connaissances et apprend de ses erreurs, non pas parce que c’est ce qu’on lui a demandé, mais parce qu’elle souhaite explorer le monde de "Mario Bros". À force de se faire écraser par des carapaces et de tomber dans des gouffres sans fond, le programme a appris tout seul à contrôler le jeu. Un peu comme un bébé qui essaye de se lever pour explorer son enrivonnement, tombe, mais se relève à nouveau.

"La contribution principale de mon travail est de montrer qu’une motivation intrinsèque motivée par la curiosité permet au programme d’apprendre, même lorsque qu’il n’y a pas de récompenses" explique Deepak Pathak à Digital Trends.

Applications dans le monde réel

L’expérience est importante : jusqu’à présent, la plupart des intelligences artificielles apprenaient à jouer un jeu vidéo grâce au renforcement positif, une approche qui récompense le programme en lui donnant un stimulus agréable en cas de succès. En gros, les IA classiques deviennent meilleures à un jeu parce qu’elles sont programmées pour atteindre un but extérieur. Typiquement, atteindre le plus haut score possible.

C’est ce genre d’approche qui a permis de créer AlphaGo, l’ordinateur de Google qui a récemment battu le champion Coréen Lee Sedol au jeu de Go. Un seul but ici pour le programme : gagner. On ne va pas vous la faire à l’envers : oui, certaines personnes sont comme ces algorithmes, elles ne sont là que pour vous battre à Mario Kart et vous voir lâcher une petite larme. Mais comme le fait remarquer Deepak Pathak, "le monde réel ne fonctionne pas sur la base de la récompense". Souvent, on joue juste parce qu’on a envie de jouer, sans autre raison que l’envie d’explorer un univers nouveau.

La curiosité naturelle de l’IA lui a d'ailleurs permise d’apprendre à jouer beaucoup plus rapidement que l’approche classique. Mais il y a quand même une limite : le programme de Deepak Pathak n’a en moyenne exploré que 30% des niveaux. Échaudé par ses chutes mortelles, l’intelligence artificielle décide parfois de s’arrêter, sans aller jusqu’à la fin du parcours. Un peu comme dans la vraie vie : si vous tombez deux fois de suite dans une flaque, il est probable que vous arrêtiez d'essayer de passer par ce chemin.

Cette technique d’apprentissage par la curiosité pourrait même avoir des applications dans le monde réel. Deepak Pathak travaille notamment sur un bras robotique qui pourrait apprendre tout seul à attraper des objets. On espère juste que les IA ne décident pas un jour de prendre le pouvoir, juste par simple curiosité.

Quelque chose à ajouter ? Dites-le en commentaire.

Page non trouvée

Le contenu auquel vous tentez d'accéder n'existe pas ou n'est plus disponible.