En matière d’apprentissage machine (machine learning), la qualité des résultats dépend de la qualité des données utilisées par le programmeur, et cela d’autant plus que l’auto-apprentissage utilise des données produites par l’algorithme lui-même. Une équipe de chercheurs de Télécom ParisTech a dressé l’inventaire de ces risques bien réels qu’on appelle les biais des algorithmes.
Biais cognitifs, qui agissent sur la perception des phénomènes
Le biais de bandwagon ou du mouton de Panurge s’appuie sur des modélisations très utilisées sans vérifier si elles contiennent des erreurs.
Le biais d’anticipation et de confirmation naît d’un choix préalable du programmeur non remis en question malgré l’existence de données contradictoires.
Le biais de corrélation illusoire fait le lien par erreur entre deux éléments sans rapport l’un avec l’autre.
Le biais de stéréotype privilégie l’appartenance à un groupe social au détriment des caractéristiques individuelles, biais particulièrement fréquent dans les associations de mots opérées par les machines (par exemple le mot « femme » associé à « ménage »).
Biais statistiques provenant de données erronées
Le biais des données, ou GIGO (Gargage In, Garbage Out), soit la prise en compte d’informations erronées ou de biais cognitifs potentiels dans le calcul effectué par la machine – aussi cohérent ou utile puisse-t-il paraître – donnera des résultats inexacts.
Le biais de variable omise vient de la difficulté de codifier certains éléments déterminants afin que la machine les intègre dans son calcul, tels que des caractéristiques humaines psychologiques et intellectuelles, ou des données sur le genre dont la loi interdit la collecte.
Le biais de sélection omet des critères déterminants, qui correspondent à la population dans son ensemble, lorsqu’il étudie une fraction particulière de cette population.
Le biais d’endogénéité est la limite induite par des calculs basés uniquement sur les données du passé, parce que l’anticipation du changement est difficilement modélisable.
Biais économiques, involontaires ou volontaires
Ces biais proviennent de choix visant à privilégier soit le moindre coût, soit la rentabilité économique d’une action ou d’un service en ligne, à l’instar de Google qui a favorisé systématiquement son service Google Shopping dans les pages de résultats de son moteur de recherche, avant d’être condamné par la Commission européenne pour abus de position dominante (voir La rem n°44, p.14).
Source : Algorithmes : biais, discrimination et équité, Patrice Bertail, David Bounie,
Stephan Clémençon et Patrick Waelbroeck, Télécom ParisTech, telecom-paris.fr, février 2019.