Les données de l’IA, un enjeu de souveraineté culturelle

Les grands modèles de langage s’entraînent sur des données anglo-saxonnes et répondent à la manière anglo-saxonne. Pour les langues qui ne recourent pas à l’alphabet latin et pour les cultures éloignées, les réponses des IA américaines sont souvent inappropriées, conduisant des pays comme le Japon ou la Corée du Sud à faire émerger leurs propres IA. En France, c’est le patrimoine issu des institutions culturelles qui est mis à la disposition des développeurs.

Après ChatGPT dans sa version 3, en novembre 2022, les IA génératives qui reposent sur des Large Language Models (LLM) se sont multipliées. ChatGPT est passé à la version 4 et il a été rejoint par l’IA de Google (Gemini) et celle de Meta (Llama 2). Toutes sont américaines et toutes ont été entraînées de la même manière, c’est-à-dire essentiellement sur des sources en anglais. À vrai dire, il eût été difficile de faire autrement puisque les données d’entraînement sont récupérées en ligne, où domine l’anglais. Selon Abdoulaye Drack, senior program manager chez Google Research au Ghana, cité par Les Échos, « 90 % du contenu d’internet est en anglais, contre moins de 5 % pour le français et à peine 1 % pour les langues africaines ».

Malgré l’AI Act européen et les obligations de transparence qu’il impose, personne ne connaît encore à ce jour les corpus précis sur lesquels les intelligences artificielles génératives s’entraînent, d’autant que les velléités de rémunération des détenteurs de contenus se multiplient, notamment dans la presse (voir supra), ce qui favorise un grand silence sur le sujet. Au moins dispose-t-on de quelques données sur ChatGPT 3, communiquées avant 2020. Selon Pierre-Carl Langlais, cofondateur de Pleias, GPT3 a été entraîné sur la seule version en anglais de Wikipedia, sur les pages web de Reddit « likées » au moins cinq fois, sur des fanfictions en anglais et sur des livres numérisés issus du projet Gutenberg et d’une base de données de livres piratés appelée Book2, ce que conteste OpenAI.

Dès lors, la plupart du temps, les réponses apportées dans d’autres langues s’appuient sur des contenus en anglais, des tournures de phrases inspirées de l’anglais, des automatismes et des habitudes langagières issus de l’anglais, et traduits après coup. En effet, à défaut de données en nombre suffisant dans d’autres langues, les réponses produites par les LLM sont souvent de mauvaise qualité. Il n’y a donc pas de barrière de la langue pour les LLM, ce qu’attestent les performances remarquables de ces services en termes de traduction, mais il y a une barrière de la pertinence statistique liée à l’absence de corpus conséquent pour les entraîner. Selon Jean-Noël Barrot, ex-ministre délégué chargé de la Transition numérique, les données en langue française qui servent à entraîner les LLM représentent au total 0,2 % de l’ensemble. Or, la langue française fait partie des langues les plus parlées au monde. Quand les données disponibles sont très rares dans une langue, parce qu’elle est parlée par peu de locuteurs, parce que donc elle est très minoritaire, les réponses sont produites à partir de données anglaises et sont ensuite traduites dans la langue de destination. La vision anglo-saxonne du monde s’impose ainsi sans même qu’on le remarque, sauf à constater parfois un décalage culturel significatif dans les réponses des IA génératives (voir La rem n°65-66, p.107).

Ce décalage est manifeste quand la différence de la langue utilisée par rapport à l’anglais est importante et quand elle se double d’une différence culturelle marquée : les Japonais et les Coréens sont les premiers à le constater. Ces deux pays, pourtant, sont dépositaires d’un soft power incontesté (pensons aux mangas et à la K- pop), qui aurait dû leur assurer une présence en ligne suffisamment forte. Mais ils sont doublement pénalisés, d’abord par la complexité de leur langue pour les IA génératives, ensuite par l’insuffisance de leur présence en ligne.

Les IA génératives sont en effet plus à l’aise avec les langues comme l’anglais qui, au-delà de sa présence écrasante sur l’internet, a un autre avantage : celui de la simplicité. L’alphabet latin compte peu de caractères, et la langue anglaise ne repose pas sur des mots composés complexes. Or, les IA génératives prédisent la suite d’un texte en découpant les mots en tokens, chacun étant associé à un nombre pour calculer la probabilité qu’un token succède à un autre. Il faut beaucoup plus de tokens pour exprimer des mots composés de multiples caractères quand un mot anglais comme « love » ne nécessite qu’un token. Les calculs sont donc plus rapides quand la génération automatisée se fait en anglais, et les erreurs moins fréquentes, que dans des langues comme le japonais qui compte trois alphabets, dont deux avec 46 et 48 caractères mais le troisième, le kanji, quelque 50 000 signes au total qu’aucune personne ne maîtrise en entier. ChatGPT aura donc tendance à produire une réponse en anglais et à la traduire en japonais parce qu’il lui faudrait comparativement beaucoup plus de données en japonais pour s’entraîner s’il devait proposer une réponse pertinente directement depuis les données japonaises.

Et il faudrait aussi beaucoup plus de calculs pour aligner les tokens dans le bon ordre, donc un temps de réponse beaucoup plus long. Le passage par l’anglais représente ainsi un best effort pour l’IA générative. Pourtant, une réponse traduite sera, certes, plus rapidement fournie, mais pas nécessairement meilleure, bien au contraire. Au Japon, la langue retranscrit aussi un ensemble de normes sociales par des formules de politesse, des manières de nommer, qui sont étrangères à la culture anglo-saxonne. Un texte japonais issu d’une traduction depuis l’anglais sera donc perçu au Japon comme culturellement grossier.

La prise en compte de la faible performance des IA génératives dans des environnements culturellement éloignés de l’univers anglo-saxon et pour des langues qui n’ont pas l’alphabet latin en commun a conduit gouvernements et acteurs économiques à favoriser une rééducation des grands modèles de langage, afin que ceux-ci puissent être utilisés de manière optimale dans les différentes langues nationales. Il s’agit d’un enjeu de compétitivité mais aussi d’un enjeu géopolitique majeur. Au Japon et en Corée du Sud, les entreprises nationales sont ainsi invitées par leurs gouvernements respectifs à développer leurs propres modèles de langage pour disposer d’IA génératives adaptées, ce qui passe par l’accès à des données en grand nombre écrites en japonais ou en coréen.

La start-up coréenne Wrtn parie ainsi sur les difficultés de ChatGPT dans les langues asiatiques pour tenter de devenir l’équivalent de Naver dans la recherche en ligne, le moteur de recherche sud-coréen qui a réussi à devancer localement Google. Au Japon, pour des raisons économiques et culturelles, le droit d’auteur ne peut plus être revendiqué depuis juin 2023 pour refuser l’entraînement des IA génératives tant que leurs réponses ne portent pas « atteinte de manière irraisonnable aux intérêts des titulaires du droit d’auteur ». Cette souplesse revendiquée doit permettre à la langue japonaise d’être mieux traitée par les IA génératives et aux entreprises nippones de disposer de la matière première pour développer plus rapidement leurs propres IA. L’une des premières traductions concrètes de ces initiatives a été le lancement, en avril 2024, de ChatGPT4 en japonais et l’ouverture à Tokyo du premier bureau d’Open AI en Asie.

Si les écueils de la traduction sont moins importants entre le français et l’anglais, l’enjeu géopolitique est identique, qui pourrait voir la culture française trop peu exploitée par les IA génératives au risque de leur interdire une certaine French touch dans leurs réponses et dans les messages qu’elles font circuler auprès des internautes du monde entier. Finalement, du Minitel aux IA génératives, la problématique française ne varie pas. Dès 1978, à l’époque de l’invention de la télématique, Simon Nora et Alain Minc soulignaient déjà que « le savoir finira par se modeler, comme il l’a toujours fait, sur les stocks d’informations. Laisser à d’autres, c’est-à-dire les banques américaines, le soin d’organiser cette « mémoire collective », en se contentant d’y puiser, équivaut à accepter une aliénation culturelle. La mise en place de banques de données constitue donc un impératif de souveraineté ». Afin d’éviter une telle aliénation culturelle, le gouvernement français a donc décidé la création d’un gigantesque « hub de données » francophones puisées dans les institutions culturelles.

En France, ces institutions ont aussi un rôle de conservation et sont riches d’un patrimoine en partie numérisé. Ce hub de données sera mis à la disposition des développeurs pour faire travailler leurs IA et faire émerger des LLM plus à l’aise avec la culture française. Baptisé Villers-Cotterêts, le nom du château où François Ier a fait du français la langue officielle et qui accueille aujourd’hui la Cité internationale de la langue française, ce hub sera déployé avec l’aide de la Dinum, la Direction interministérielle du numérique, le ministère de la culture et de la communication, l’Inria, le CNRS et, enfin, l’Ina pour la disponibilité de ses archives. À l’évidence, les politiques d’open data en France auront également des conséquences sur la capacité ou non des pays à proposer suffisamment de données pour que les IA génératives dépendent moins de l’anglais et de ceux qui le parlent, et pour qu’elles comprennent mieux les singularités de chaque culture. Sur l’open data, la France compte, en l’occurrence, parmi les pays les plus avancés en Europe.

Sources :

  • « Some questions on copyrighted material », septembre 2023. https://community.openai.com/t/some-questions- on-copyrighted-material/387428
  • Langlais Pierre-Carl, « Est-ce que ChatGPT parle vraiment français ? », post LindekIn, décembre 2023. https://www.linkedin.com/feed/update/urn:li:activity:712 2901666932154370
  • Debès Florian, « IA : la France se lance dans la bataille culturelle des données », Les Échos, 13 décembre 2023.
  • Rousseau Yann, « L’Asie est contrainte de rééduquer ChatGPT », Les Échos, 14 février 2024.
  • Falletti Sébastien, « Des semi-conducteurs aux assistants virtuels, la Corée du Sud veut être à la pointe de la révolution de l’IA », Le Figaro, 19 avril 2024.
  • Rousseau Yann, « Le Japon tente de combler son retard dans le cloud et l’IA », Les Échos, 25 avril 2024.

 

 

Professeur à Aix-Marseille Université, Institut méditerranéen des sciences de l’information et de la communication (IMSIC, Aix-Marseille Univ., Université de Toulon), École de journalisme et de communication d’Aix-Marseille (EJCAM)