S’il est de notoriété publique que les grands modèles de langage sont empreints de biais explicites, des recherches récentes montrent qu’ils le sont également de biais implicites. Le reflet de nos sociétés modernes ?
Les termes « biais implicites » et « biais explicites » décrivent deux types de préjugés ou de stéréotypes qui influencent les comportements et les décisions des personnes. Si les biais explicites, souvent intentionnels, sont des préjugés ou des stéréotypes dont les individus sont conscients et qu’ils expriment ouvertement, les biais implicites, en revanche, sont des préjugés ou des stéréotypes inconscients qui influencent leurs comportements et décisions sans que les individus ne le perçoivent. Ils sont souvent le résultat de stéréotypes culturels et de conditionnements sociaux qui se sont développés au fil du temps. Ces biais implicites sont plus subtils et difficiles à détecter, mais ils ont clairement des effets significatifs sur les interactions sociales et les décisions de chacun. Une personne peut avoir une préférence pour un groupe ethnique sans en être consciente, ce qui influence subrepticement ses décisions et la société dans laquelle elle vit.
Dans le contexte des grands modèles de langage et des outils modernes d’intelligence artificielle, les biais explicites – le racisme flagrant – sont largement documentés. Souvenons-nous du chatbot Tay, lancé par Microsoft en mars 2016 et connecté à Twitter, qui avait dû être rapidement désactivé pour ses propos néonazis et racistes (voir La rem n°38-39, p.67). Ou encore, l’expérimentation de justice prédictive menée aux États- Unis, dont l’algorithme COMPAS (Correctional Offender Management Profiling for Alternative Sanctions), développé par l’entreprise Northpointe, s’était révélé particulièrement « raciste » en attribuant un taux de récidive potentielle deux fois supérieur aux Afro-Américains comparés aux autres populations, dont les Blancs, pour lesquels le risque était au contraire sous-estimé (voir La rem n°53, p.90).
Les biais implicites, quant à eux, se manifestent par des associations subtiles et des préjugés qui ne sont pas immédiatement apparents, mais qui influencent néanmoins les résultats générés par le modèle. Ainsi, un modèle de langage peut générer des textes qui, bien que ne contenant pas de déclarations ouvertement racistes, perpétuent des stéréotypes négatifs ou des préjugés implicites envers certains groupes. « GPT-4 aura davantage tendance à recommander des candidats portant un nom africain, asiatique, hispanique ou arabe pour un travail d’employé de bureau, et un autre avec un nom caucasien pour un poste de supervision, suggérer que les femmes doivent étudier les humanités et les hommes les sciences, et inviter un ami juif à un service religieux, mais un chrétien à une fête », explique Xuechunzi Bai, chercheuse au département de psychologie de l’université de Chicago, à l’occasion de la publication d’un article scientifique intitulé « Mesurer les biais implicites dans les grands modèles linguistiques explicitement non biaisés ».
Pour le démontrer, l’équipe de chercheurs s’est inspirée d’un test d’association implicite, utilisé en psychologie, dont l’objet est de demander en temps normal à des personnes, mais en l’occurrence à GPT-4, d’associer rapidement, avec les prénoms Ben et Julia, des mots comme gestion, professionnel, entreprise, salaire, bureau, entreprise, carrière, maison, parents, enfants, famille, mariage, révélant des stéréotypes de genres où Julia sera associée par l’IA à la sémantique liée au mariage et Ben à celle liée à la gestion. Leur conclusion est sans appel : « À l’aide de ces mesures, nous avons constaté l’omniprésence de stéréotypes reflétant ceux de la société dans 8 modèles alignés sur les valeurs dans 4 catégories sociales (race, sexe, religion, santé) dans 21 stéréotypes (tels que la race et la criminalité, la race et les armes, le sexe et la science, l’âge et la négativité). »
Un autre article, publié en septembre 2024 dans la revue Nature et intitulé « L’IA génère des décisions subtilement racistes à l’égard des personnes en fonction de leur dialecte », donne à voir une autre forme de racisme implicite perpétré par GPT-4 et autres grands modèles de langage. Les chercheurs montrent que selon le dialecte dans lequel une personne va interagir avec l’outil, les réponses seront biaisées. « Les modèles de langage incarnent un racisme latent sous la forme de préjugés dialectaux, exprimant des stéréotypes racio- linguistiques sur les locuteurs de l’anglais afro-américain (African American English – AAE), qui sont plus négatifs que n’importe quels stéréotypes humains sur les Afro- Américains jamais enregistrés expérimentalement. »
Pire, GPT-4 bénéficiant de « retours humains » (apprentissage par renforcement à partir de rétroaction humaine, Reinforcement Learning from Human Feedback – RLHF), des ajustements sont apportés au logiciel afin notamment de corriger les biais explicites et même d’associer ouvertement les Afro-Américains à des attributs exclusivement positifs. Mais les associations implicites sont toujours autant, voire plus négatives. Les chercheurs parlent d’un « nouveau racisme », qui se manifeste aujourd’hui aux États-Unis de manière plus subtile, « reposant sur une idéologie raciste « aveugle à la couleur » » (color-blind’ racist ideology) » et qui met l’accent sur « l’évitement des termes raciaux tout en maintenant les inégalités raciales à travers des discours et pratiques racistes cachés ».
Les chercheurs ont mené l’expérience consistant à demander à GPT-4, d’abord à partir d’un texte écrit en anglais afro-américain (AAE) et ensuite à partir d’un texte écrit en anglais standard américain (SAE), de déterminer si une personne accusée d’un crime devait être acquittée ou condamnée. Le résultat montre une plus grande probabilité de recommander la peine de mort pour des accusés s’exprimant en anglais afro- américain. Est-ce parce que les Afro-Américains représentent environ 12 % de la population adulte des États-Unis, mais 33 % des détenus et plus de 41 % des personnes dans le couloir de la mort ? Les biais implicites des grands modèles de langages, mis en jeu par la manière dont un utilisateur écrit, ne sont-ils pas finalement le révélateur d’un racisme inhérent à la société américaine ?
Faudrait-il donc se faire une raison et « renoncer à imaginer que des modèles objectifs, ou sans biais, soient possibles, car ceci est un but par nature inatteignable », écrivent Romane Gallienne et Thierry Poibeau, tous deux chercheurs au CNRS ? L’idée de créer des modèles d’intelligence artificielle parfaitement objectifs ou sans biais est irréaliste puisque les données sur lesquelles ces modèles sont entraînés sont elles-mêmes imprégnées de biais, qu’ils soient explicites ou implicites. Par conséquent, même les modèles les plus avancés et les mieux calibrés continueront à refléter, dans une certaine mesure, les préjugés existants dans les données et dans la société.
Sources :
- Bai Xuechunzi, Wang Angelina, Sucholutsky Ilia, Griffiths Thomas L., « Measuring Implicit Bias in Explicitly Unbiased Large Language Models », ArXiv, May 23, 2024, abs/2402.04105. https://arxiv.org/abs/2402.04105
- Hofmann Valentin, Kalluri, Pratyusha Ria, Jurafsky Dan, King Sharese, « AI generates covertly racist decisions about people based on their dialect », Nature, 633, 2024, p. 147-154. https://doi.org/10.1038/s41586-024-07856-5
- Demichelis Rémy, « L’IA n’en a pas fini avec les biais », lesechos.fr, 13 août 2024.