IA - partie 3 - Biais

/ by
Reading Time: 3 minutes

Dans le troisième chapitre de son blog en cinq parties sur l'intelligence artificielle, Richard Develyn, directeur technique de CloudTrade, nous parle de l'apprentissage par l'exemple et de la manière dont il entraîne des biais, que l'apprentissage ait été effectué par un humain ou par un réseau neuronal.

Si vous deviez enseigner un réseau neuronal sur les factures à l'aide d'échantillons de documents provenant principalement d'obstétriciens, le terme « date prévue » finirait probablement par présenter une certaine ambiguïté. Cela pourrait poser des problèmes si vous deviez prendre ce réseau neuronal et l'appliquer ailleurs.

Il s'agit là encore d'un biais qui n'existe pas seulement dans le cerveau humain, mais qui imprègne tout système qui doit apprendre par l'exemple.

Tenter de supprimer les biais semble être une chasse au dahu, non seulement en termes de chances de réalisation, mais aussi en termes d'ambition. La partialité peut être une bonne chose si elle est en votre faveur.

Les applications de traduction linguistique basées sur Internet ont rencontré des phénomènes intéressants causés par le biais des informations à partir desquelles elles ont formé leurs réseaux neuronaux. Un exemple tristement célèbre a été rapporté en 2018 (je suppose que cela ne se produira pas maintenant), où le mot anglais « dog » répété dix-neuf fois en maori a été traduit par Google Translate par : « L'horloge du Jugement dernier est à douze heures trois minutes. Nous connaissons des personnages et une évolution dramatique dans le monde, qui indiquent que nous nous approchons de plus en plus de la fin des temps et du retour de Jésus ».

Si je visite un jour la Nouvelle-Zélande, je m'assurerai de traiter leurs chiens avec respect !

Ce comportement étrange s'explique par le biais présent dans le réseau neuronal qui sous-tend le traducteur. Les traducteurs tels que Google Translate apprennent à faire leur travail en parcourant l'Internet à la recherche de pierres de Rosette, c'est-à-dire de textes présents dans plusieurs langues. Lorsque l'une de ces langues est rare, la pierre de Rosette prédominante tend à être la Bible chrétienne, et c'est ce texte puissant qui finit par donner aux traducteurs leur touche « biblique » distincte.

Bien sûr, ce ne serait pas un problème si vous étiez principalement intéressé par la traduction de passages de la Bible, ou du moins de textes des temps bibliques. En fait, le parti pris dans ce cas jouerait en votre faveur. Lorsque le biais est associé à une réduction ou à un affinement de la portée, vous êtes gagnant. Le réseau neuronal formé à partir de documents provenant d'obstétriciens fonctionnera bien si vous continuez à l'utiliser avec des obstétriciens. Même s'il commettra probablement de terribles erreurs s'il est utilisé ailleurs, il sera plus performant dans son propre domaine qu'un réseau neuronal qui tente de comprendre le monde entier des factures sans aucun biais - même si une telle chose était possible. Le problème de la réduction du champ d'application, cependant, est que vous réduisez également la source de votre matériel d'apprentissage, ce qui signifie que si vous pouvez obtenir un biais bénéfique dans votre réseau neuronal, votre vision aveugle du monde peut également vous faire acquérir un biais préjudiciable.

Le problème du biais est difficile à résoudre de manière algorithmique. Notre capacité à comprendre où il peut y avoir un biais et de quel type de biais il s'agit est vraiment très fine et, si j'ose dire, intelligente. Si nous écrivions des règles déterministes pour extraire des informations des factures d'obstétriciens, nous saurions qu'il est possible qu'il y ait plus d'une « date prévue » parce que nous savons de quoi il s'agit, et nous inclurions ce petit biais « significatif » dans notre travail. En revanche, nous ne supposerions pas que la date correcte se trouve toujours en bas de la page, même si c'est là que nous l'avons toujours trouvée avec notre ensemble d'apprentissage, car nous considérerions qu'il s'agit d'un biais insignifiant.

Malheureusement, il est difficile d'essayer de travailler sans aucun biais, non seulement parce que vous perdez l'avantage que vous procure le biais lorsque vous réduisez la portée de votre problème, mais aussi parce que, comme Google Translate, il y a de fortes chances que vous ne vous soyez pas débarrassé de votre biais, mais que vous en ayez simplement perdu la visibilité.

Un exemple intéressant de biais s'est produit avec un test conçu par le célèbre Britannique Alan Turing en 1950 comme moyen de déterminer la présence d'une intelligence artificielle. Dans ce test, on demande à un être humain de converser, via une sorte de mécanisme de « chatter », avec un correspondant qui peut être soit une autre personne, soit ce qu'on appelle aujourd'hui un « chatbot ». S'il ne fait pas la différence, le robot est considéré comme « intelligent » et nous pouvons rentrer chez nous, nous reposer et les laisser prendre le contrôle du pays.

Le test a été réussi en 2014 par un programme appelé Eugene Goostman, qui a réussi à tromper ses testeurs humains en prétendant avoir treize ans et être ukrainien - c'est-à-dire juvénile, et ne pas s'exprimer dans sa langue maternelle. Les testeurs ne pouvaient pas s'attendre à ce qu'Eugène parle un anglais parfait, et sa conversation allait toujours se limiter à ce qu'un jeune garçon d'Odessa avait pu vivre dans sa courte vie. Eugène est entré dans l'histoire comme le premier programme à passer le test de Turing. C'était le biais et la limitation de la portée à son meilleur niveau artificiel.

Soit dit en passant, Eugène était également censé avoir un cochon d'Inde et un père gynécologue. Je vous jure que je ne le savais pas quand j'ai commencé à écrire ce blog.