Algorithmes : « Foutaises en entrée, foutaises en sortie » (Garbage In, Garbage Out – GIGO)

Par

- N°50-51 Printemps - été 2019

566

En matière d’apprentissage machine (machine learning), la qualité des résultats dépend de la qualité des données utilisées par le programmeur, et cela d’autant plus que l’auto-apprentissage utilise des données produites par l’algorithme lui-même. Une équipe de chercheurs de Télécom ParisTech a dressé l’inventaire de ces risques bien réels qu’on appelle les biais des algorithmes.

Biais cognitifs, qui agissent sur la perception des phénomènes

Le biais de bandwagon ou du mouton de Panurge s’appuie sur des modélisations très utilisées sans vérifier si elles contiennent des erreurs.

Le biais d’anticipation et de confirmation naît d’un choix préalable du programmeur non remis en question malgré l’existence de données contradictoires.

Le biais de corrélation illusoire fait le lien par erreur entre deux éléments sans rapport l’un avec l’autre.

Le biais de stéréotype privilégie l’appartenance à un groupe social au détriment des caractéristiques individuelles, biais particulièrement fréquent dans les associations de mots opérées par les machines (par exemple le mot « femme » associé à « ménage »).

Biais statistiques provenant de données erronées

Le biais des données, ou GIGO (Gargage In, Garbage Out), soit la prise en compte d’informations erronées ou de biais cognitifs potentiels dans le calcul effectué par la machine – aussi cohérent ou utile puisse-t-il paraître – donnera des résultats inexacts.

Le biais de variable omise vient de la difficulté de codifier certains éléments déterminants afin que la machine les intègre dans son calcul, tels que des caractéristiques humaines psychologiques et intellectuelles, ou des données sur le genre dont la loi interdit la collecte.

Le biais de sélection omet des critères déterminants, qui correspondent à la population dans son ensemble, lorsqu’il étudie une fraction particulière de cette population.

Le biais d’endogénéité est la limite induite par des calculs basés uniquement sur les données du passé, parce que l’anticipation du changement est difficilement modélisable.

Biais économiques, involontaires ou volontaires

Ces biais proviennent de choix visant à privilégier soit le moindre coût, soit la rentabilité économique d’une action ou d’un service en ligne, à l’instar de Google qui a favorisé systématiquement son service Google Shopping dans les pages de résultats de son moteur de recherche, avant d’être condamné par la Commission européenne pour abus de position dominante (voir La rem n°44, p.14).

Source : Algorithmes : biais, discrimination et équité, Patrice Bertail, David Bounie,
Stephan Clémençon et Patrick Waelbroeck, Télécom ParisTech, telecom-paris.fr, février 2019.

Algorithmes : « Foutaises en entrée, foutaises en sortie » (Garbage In, Garbage Out – GIGO)

LAISSER UN COMMENTAIRE

La rem

Lettre d'information

ARTICLES CONNEXESPLUS DE L'AUTEUR

Le rapport ambivalent des Français à l’information, aux médias et aux journalistes

Pour les 7-19 ans, la lecture comme loisir laisse la place aux écrans

En 2023, la vidéo à la demande l’emporte sur le mode linéaire en France

LAISSER UN COMMENTAIRE

La rem

Lettre d'information

ARTICLES CONNEXES PLUS DE L'AUTEUR