Un articled’Hubert Guillaud publié dans le magazine "Dans les algorithmes", une publication sous licence CC by sa nc
Quand on parle d’Intelligence artificielle on mobilise un terme qui qualifie un ensemble de technologies vaguement reliées, expliquent les chercheurs Arvind Narayanan et Sayash Kapoor dans le livre qu’ils viennent de faire paraître, AI Snake Oil (Princeton University Press, 2024, non traduit).
Il y a peu de liens entre l’IA générative dont on entend tant parler et l’IA prédictive, certainement bien plus utilisée encore, mais où se concentrent les systèmes les plus défaillants qui soient. C’est là surtout que se concentre cette « huile de serpent » à laquelle font référence les deux chercheurs. Sous ce terme, qui qualifie des remèdes miraculeux mais inefficaces, comme tant de charlatans en vendaient dans tout l’Ouest américain, les deux chercheurs désignent une technologie qui ne fonctionne pas et ne peut pas fonctionner comme attendu, et qui ne fonctionnera probablement jamais. Toute la difficulté aujourd’hui, pour le grand public, consiste à être capable de distinguer l’IA qui ne fonctionne pas de celle qui fonctionne. C’est tout l’enjeu de leur livre.
IA générative vs. IA prédictive
L’IA est désormais devenue un produit de consommation grand public. Le problème, c’est que son utilisation abusive s’est également généralisée. Les deux ingénieurs restent pourtant très confiants. L’IA générative est un outil amusant et utile défendent-ils. Elle peut même être un outil d’apprentissage passionnant, expliquent-ils un peu légèrement. Certes, l’IA générative comporte des risques et peut avoir un coût social élevé. Mais ce n’est rien comparé à l’IA prédictive. Dans leur livre, les deux chercheurs accumulent les exemples pour montrer que dès que nous tentons d’utiliser l’IA pour des prédictions, notamment dans le domaine du social, elle produit des discriminations. De l’emploi à la santé, en passant par le crime… partout ces modèles restent englués dans leurs biais. Mais surtout, leurs résultats ne sont bien souvent pas meilleurs qu’un résultat aléatoire. C’est, il me semble, la grande force de leur démonstration et le point le plus original du livre. Pour les chercheurs, l’une des raisons d’une si faible performance tient beaucoup au fait que très souvent, la donnée n’est ni disponible ni décisive. Le problème c’est que l’IA prédictive est très attirante parce qu’elle promet des décisions plus efficaces… Mais l’efficacité est bien plus relative qu’annoncée et surtout bien moins responsable.
L’IA n’a pas vraiment de définition fixe. Les deux chercheurs s’en amusent d’ailleurs et remarquent que ce qu’on qualifie comme IA correspond souvent à ce qui n’a pas été fait. Dès qu’une application fonctionne avec fiabilité, on ne parle plus d’IA, comme c’est le cas avec les aspirateurs autonomes, l’autopilote des avions, les filtres à Spam, ou l’autocomplétion. Autant d’exemples qui nous montrent d’ailleurs des formes d’IA qu’on souhaiterait plus souvent. Ces exemples doivent nous rappeler qu’elle n’est pas toujours problématique, loin de là. L’IA sait résoudre des problèmes difficiles. Mais elle ne sait pas prédire les comportements sociaux des gens et la prédiction du social n’est pas un problème technologique soluble.
Il y a aussi certains domaines du social où l’IA peut-être très forte, très précise et très efficace, mais qui posent des problèmes de société majeurs. C’est le cas notamment de la reconnaissance faciale. Le taux d’erreur de la reconnaissance faciale est devenu minuscule (0,08% selon le Nist). Cela n’enlève rien au fait que ces erreurs soient très problématiques, notamment quand elles conduisent à des arrestations qui ne devraient pas avoir lieu. Mais dans le domaine de la reconnaissance faciale, le problème, désormais, n’est plus que la technologie soit défaillante. Ce sont les pratiques, les erreurs humaines, les échecs policiers et d’encadrement de son usage qui posent problèmes. « L’IA de reconnaissance faciale, si elle est utilisée correctement, a tendance à être précise car il y a peu d’incertitude ou d’ambiguïté dans la tâche à accomplir ». Identifier si une personne sur une photo correspond à une autre personne sur une autre photo est assez simple, pour autant que les systèmes aient suffisamment d’images pour s’y entraîner et de moyens pour trouver les éléments qui permettent de distinguer un visage d’un autre. Cela ne signifie pas que l’analyse faciale puisse tout faire, précisent les deux chercheurs : identifier le genre où l’émotion depuis un visage n’est pas possible, car ni l’un ni l’autre n’est inscrit dans l’image. Désormais, « le plus grand danger de la reconnaissance faciale vient du fait qu’elle fonctionne très bien ». Ce ne sont plus ses défaillances techniques qui posent un problème de société, comme c’est le cas des systèmes de prédiction de risques. C’est l’usage qui peut en être fait… comme de pouvoir identifier n’importe qui n’importe où et pour n’importe quelle raison. Attention cependant, préviennent les chercheurs : la reconnaissance faciale peut-être très performante quand elle est utilisée correctement, mais peut très facilement échouer en pratique, comme le montre l’identification depuis des images de mauvaise qualité qui a tendance à produire de nombreux faux positifs. Elle n’est donc ni parfaite ni magique. Et surtout, elle pose un enjeu de société qui nécessite de cadrer son usage, pour trouver les moyens afin qu’elle ne soit pas utilisée de manière inappropriée – et ce n’est pas si simple – et pour que la société se dote de garde-fous et de garanties pour prévenir des abus ou d’utilisations inappropriées.
Nombre d’usages de l’IA demeurent problématiques avertissent les chercheurs. Nombre de ses utilisations relèvent ni plus ni moins de l’imposture. L’IA échoue d’abord et très souvent dès qu’on l’utilise pour produire des prédictions, comme l’a montré Google Flu, l’outil pour prédire la grippe de Google qui se basait sur l’évolution des recherches de symptômes sur le moteur de recherche et dont la précision a fini par s’effondrer sous les requêtes. Non seulement la prédiction est difficile, mais bien souvent son efficacité s’effondre dans le temps.
Les deux chercheurs nous invitent à intégrer une sirène d’alerte aux projets d’IA. Dès qu’ils abordent le social, dès qu’ils souhaitent prédire quelque chose, dès qu’ils utilisent une variable pour une autre (comme de vouloir reconnaître le genre depuis des images de visages), nous devons être vigilants.
Les défaillances de l’IA prédictive
Mais il y a d’autres motifs d’inquiétudes auxquels prêter attention. Le battage médiatique autour de l’IA fait que bien souvent ses qualités sont exagérées. Les capacités de prédiction de nouveaux services ou outils sont très souvent survendues. L’une des erreurs les plus courantes consiste à annoncer un taux de réussite particulièrement élevé, alors que très souvent, l’outil est évalué sur les mêmes données que celles sur lesquelles il a été entraîné. C’est un peu comme réviser les questions qui seront posées à un examen avant l’examen. L’étude des résultats de recherche dans nombre de secteurs de la recherche en machine learning a montré partout des résultats problématiques. Ce n’est pas nécessairement intentionnel ou malveillant, excusent un peu facilement les deux ingénieurs, le machine learning est une discipline délicate et il est facile de s’embrouiller. En tout cas, la qualité s’effondre très souvent avec le battage médiatique. Ainsi, des centaines d’études ont proclamé pouvoir détecter le Covid depuis des radiographies des poumons : une revue systématique de plus de 400 articles de recherche a montré qu’AUCUNE n’était fiable. Tant et si bien qu’une équipe de chercheurs a mis au point une chek-list pour aider les développeurs et les chercheurs à minimiser les erreurs. Dans une étude sur l’usage de l’IA prédictive dans l’industrie et l’administration, Narayanan et Kapoor ont fait les mêmes constats et ont listé les principaux défauts de la prédiction :
- Un outil qui fait de bonnes prédictions ne signifie pas qu’il mènera à de bonnes décisions, notamment du fait de la rétroaction des décisions sur les prédictions (par exemple un montant de caution plus élevé basé sur une prédiction de récidive peut augmenter le taux de récidive… et d’ailleurs, les peines sévères ont tendance à augmenter la récidive) ;
- Pour prédire, on fait souvent appel à une variable-cible qui ne correspond pas exactement à ce que l’on souhaite prédire, comme d’utiliser la moyenne générale d’un étudiant pour prédire sa réussite l’année suivante.
- Lorsque la distribution des données sur lesquelles un modèle est formé n’est pas représentative de la distribution sur laquelle il sera déployé, les performances du modèle seront problématiques.
- Il y a toujours des limites à la prédiction. Les résultats sociaux ne sont pas prévisibles avec précision, même avec l’apprentissage.
- Les différences de performances entre différents groupes sociaux ne peuvent pas toujours être corrigées.
- Bien souvent les systèmes manquent de possibilité pour en contester les résultats alors que cette contestabilité est un levier important pour se rendre compte de ses erreurs.
- La prédiction oublie souvent de prendre en compte le comportement stratégique qui risque de la rendre moins efficace dans le temps.
Au XIXe siècle, dans l’Ouest américain, d’innombrables colporteurs vendaient des médicaments miracles, inefficaces et inoffensifs, pour la plupart… mais pas tous. Certains de ces faux remèdes laisseront des morts derrière eux. En 1906, la Food and Drug Administration (FDA) est imaginée pour remédier au problème et rendre ces colporteurs responsables de leurs produits, comme l’explique le dernier rapport de l’AI Now Institute qui revient en détail sur la naissance de l’agence américaine et comment elle a changé le monde du médicament par la construction de mesures préalables à leur mise sur le marché – l’AI Now Institute invite d’ailleurs à s’inspirer de cette histoire pour rendre l’IA responsable en pointant qu’une « réglementation ex ante solide, adaptée à un marché en évolution et à ses produits, peut créer des avantages significatifs à la fois pour l’industrie et pour le public ».
Si l’AI Snake Oil est une IA qui ne marche pas et qui ne peut pas marcher, souvenons-nous que même une IA qui fonctionne bien peut être nocive. Face aux produits d’IA, il faut pouvoir mesurer à la fois les préjudices qu’ils peuvent provoquer mais également la véracité qu’ils produisent.
Mais si l’IA défaillante est si omniprésente, c’est parce qu’elle offre des solutions rapides à n’importe quels problèmes. Oubliant que les solutions qui ne fonctionnent pas n’en sont pas, rappellent Kapoor et Narayanan. « Dans le sillage de la révolution industrielle, des millions d’emplois furent créés dans les usines et les mines, avec d’horribles conditions de travail. Il a fallu plusieurs décennies pour garantir les droits du travail et améliorer les salaires et la sécurité des travailleurs. » Nous devons imaginer et construire un mouvement similaire pour garantir la dignité humaine face à l’automatisation qui vient. Nous devons trouver les moyens d’éradiquer le déploiement de l’huile de serpent et construire les modalités pour bâtir une technologie responsable comme nous avons réussi à bâtir une médecine et une industrie agro-alimentaire (plutôt) responsable.
Pourquoi les prédictions échouent-elles ?
Dans leur livre, les deux auteurs mobilisent d’innombrables exemples de systèmes défaillants. Parmis ceux qu’ils classent comme les pires, il y a bien sûr les outils de prédiction qui prennent des décisions sur la vie des gens, dans le domaine de la santé, des soins ou de l’orientation notamment.
Un algorithme n’est qu’une liste d’étapes ou de règles pour prendre une décision, rappellent-ils. Très souvent, les règles sont manuelles mais sont appliquées automatiquement, comme quand on vous demande de ne pas percevoir au-delà d’un certain revenu pour bénéficier d’un droit. Le problème, c’est que de plus en plus, les règles se complexifient : elles sont désormais souvent apprises des données. Ce type d’algorithme est appelé modèle, c’est-à-dire qu’il découle d’un ensemble de nombres qui spécifient comment le système devrait se comporter. Ces modèles sont très utilisés pour allouer des ressources rares, comme des prêts ou des emplois, ouvrant ou fermant des possibilités. C’est typiquement ce qu’on appelle l’IA prédictive. C’est par exemple ainsi que fonctionne Compas, le système de calcul de risque de récidive utilisé par la justice américaine, entraîné depuis le comportement passé des justiciables. L’hypothèse de ces systèmes et de nombre de systèmes prédictifs consiste à dire que des gens avec les mêmes caractéristiques se comporteront de la même manière dans le futur. Ces systèmes prédictifs sont déployés dans de nombreux secteurs : la santé, l’emploi, l’assurance… Le problème, c’est que de petits changements dans la vie des gens peuvent avoir de grands effets. La plupart des entreprises qui développent des systèmes prédictifs assurent que ceux-ci sont performants et équitables. Pourtant, on ne peut pas garantir que les décisions qu’ils prennent soient sans biais ou équitables.
Une bonne prédiction ne signifie pas une bonne décision. L’IA peut faire de bonne prédictions… si rien ne change, c’est-à-dire si elles ne sont pas utilisées pour modifier les comportements, expliquent les chercheurs en prenant l’exemple d’un système prédictif de la pneumonie qui montrait que les gens atteints d’asthme étaient à moindre risque, parce qu’ils recevaient des soins adaptés pour éviter les complications. Déployer un tel modèle, en fait, aurait signifié renvoyer les patients asthmatiques chez eux, sans soins. Corrélation n’est pas causalité, dit l’adage.
Ces erreurs de prédictions ont souvent pour origine le fait que les chercheurs s’appuient sur des données existantes plutôt que des données collectées spécifiquement pour leur produit. Trop souvent, parce que créer des données spécifiques ou faire des contrôles aléatoires est coûteux, les entreprises s’en abstiennent. Comprendre l’impact des outils de décision est également important et nécessite aussi de collecter des données et de faire des contrôles d’autant plus coûteux que ces vérifications, élémentaires, viennent souvent remettre en question l’efficacité proclamée. Techniquement, cela signifie qu’il faut toujours s’assurer de savoir si le système a évalué ses impacts sur de nouvelles données et pas seulement sur les données utilisées pour la modélisation.
Ces effets sont d’autant plus fréquents que le développement de systèmes conduit souvent les gens à y réagir, à se comporter stratégiquement. C’est le cas quand des candidats à l’embauche répondent aux outils d’analyse des CV en inondant leurs CV de mots clefs pour contourner leurs limites. Une étude a même montré que changer le format de son CV d’un PDF en texte brut, changeait les scores de personnalité que les systèmes produisent sur les candidatures. Quand les entreprises assurent que leurs outils fonctionnent, elles oublient souvent de tenir compte du comportement stratégique des individus. Or, « quand les résultats du modèle peuvent être facilement manipulés en utilisant des changements superficiels, on ne peut pas dire qu’ils sont efficaces ». C’est toute la limite de trop de modèles opaques que dénoncent les deux chercheurs avec constance.
Le risque, c’est que ces systèmes nous poussent à une sur-automatisation. La sur-automatisation, pour les chercheurs, c’est quand le système de prise de décision ne permet aucune voie de recours, comme l’ont connu les individus suspectés de fraude par l’algorithme de contrôle des aides sociales de Rotterdam. Pour éviter cela, les bonnes pratiques invitent à « conserver une supervision humaine ». Problème : tous les développeurs de systèmes assurent que c’est le cas, même si cette supervision ne conduit à aucune modification des décisions prises. En réalité, les développeurs d’IA vendent des IA prédictives « avec la promesse d’une automatisation complète. La suppression d’emplois et les économies d’argent constituent une grande partie de leur argumentaire ». La supervision n’a donc la plupart du temps pas lieu. Même quand elle existe, elle est bien souvent inappropriée. Et surtout, les résultats et suggestions génèrent une sur-confiance particulièrement pervasive, qui affecte tous les utilisateurs dans tous les secteurs. Dans des simulateurs de vol, quand les pilotes reçoivent un signal d’alarme incorrect, 75% d’entre eux suivent les recommandations défaillantes. Quand ils ont recours à une checklist, ils ne sont plus que 25% à se tromper.
Mais surtout, insistent les deux chercheurs, les prédictions sur les gens sont bien plus fluctuantes qu’on le pense. Un outil similaire à Compas développé en Ohio et utilisé en Illinois a produit des aberrations car les taux de criminalité n’étaient pas les mêmes entre les deux Etats. Trop souvent les prédictions se font sur les mauvaises personnes. C’était le cas de l’outil de calcul de risque de maltraitance des enfants de Pennsylvanie étudié par Virginia Eubanks, qui n’avait aucune donnée sur les familles qui avaient recours à des assurances privées et donc qui visait disproportionnellement les plus pauvres. « Les outils d’IA regardent ce qui est sous le lampadaire. Et très souvent, le lampadaire pointe les plus pauvres ». L’IA prédictive exacerbe les inégalités existantes. « Le coût d’une IA défectueuse n’est pas supporté de manière égale par tous. L’utilisation de l’IA prédictive nuit de manière disproportionnée à des groupes qui ont été systématiquement exclus et défavorisés par le passé. » Les outils de prédiction de risque de santé, déployés pour réduire les dépenses d’hospitalisation, ont surtout montré leurs biais à l’encontre des minorités. L’un de ces outils, Optum’s Impact Pro par exemple, écartait systématiquement les personnes noires, parce que le système ne prédisait pas tant le besoin de soins, que combien l’assurance allait dépenser en remboursement des soins de santé. L’entreprise a continué d’ailleurs à utiliser son outil défaillant, même après qu’il ait montré son inéquité. « Les intérêts des entreprises sont l’une des nombreuses raisons pour lesquelles l’IA prédictive augmente les inégalités. L’autre est la trop grande confiance des développeurs dans les données passées. »
Trop souvent, on utilise des proxies, des variables substitutives qui nous font croire qu’on peut mesurer une chose par une autre, comme les coûts de la santé plutôt que les soins. C’est le même problème pour Compas. Compas utilise des données sur qui a été arrêté pas sur les crimes. Compas dit prédire le crime alors qu’en fait il ne prédit que les gens qui ont été arrêtés. Ces confusions sur les données expliquent beaucoup pourquoi les systèmes d’IA prédictive nuisent d’abord aux minorités et aux plus démunis.
S’ils sont défaillants, alors peut-être faudrait-il faire le deuil des outils prédictifs, suggèrent les chercheurs. Ce serait effectivement dans bien des cas nécessaires, mais nos sociétés sont mal à l’aise avec l’imprévisibilité, rappellent-ils. Pourtant, trop souvent nous pensons que les choses sont plus prévisibles qu’elles ne sont. Nous avons tendance à voir des régularités là où elles n’existent pas et nous pensons bien souvent être en contrôle sur des choses qui sont en fait aléatoires. Rien n’est plus difficile pour nous que d’accepter que nous n’avons pas le contrôle. Cela explique certainement notre engouement pour l’IA prédictive malgré ses défaillances. Pourtant, expliquent les chercheurs, embaucher ou promouvoir des employés aléatoirement, plutôt que sur de mauvais critères de performances, pourrait peut-être être plus bénéfique qu’on le pense, par exemple en favorisant une plus grande diversité ou en favorisant un taux de promotion fixe. Accepter l’aléatoire et l’incertitude pourrait nous conduire à de meilleures décisions et de meilleures institutions. « Au lieu de considérer les gens comme des êtres déterminés, nous devons travailler à la construction d’institutions qui sont véritablement ouvertes au fait que le passé ne prédit pas l’avenir. »
Pourquoi l’IA ne peut pas prédire le futur ?
La météorologie est l’un des secteurs où la prédiction est la plus avancée. Pourtant, la météo est un système particulièrement chaotique. Des petits changements conduisent à de grandes erreurs. Plus la prédiction est éloignée dans le temps, plus l’erreur est grande. Les données, les équations, les ordinateurs ont pourtant permis d’incroyables progrès dans le domaine. Nos capacités de prédiction météo se sont améliorées d’un jour par décade : une prévision sur 5 jours d’il y a 10 ans est aussi précise qu’une prévision sur 6 jours aujourd’hui ! Ces améliorations ne viennent pas d’une révolution des méthodes, mais de petites améliorations constantes.
La prévision météo repose beaucoup sur la simulation. Les succès de prévision des phénomènes géophysiques a conduit beaucoup de chercheurs à penser qu’avec les bonnes données et la puissance de calcul, on pourrait prédire n’importe quel type d’évènements. Mais cela n’est pas toujours très bien marché. Le temps est bien plus observable que le social, certainement parce que les conditions géophysiques, contrairement à ce que l’on pourrait penser, sont plus limitées. La prévision météo repose sur des lois physiques calculables. Ce n’est pas le cas des calculs du social. « Cela n’a pas restreint pour autant le développement de prédictions dans le contexte social, même si bien souvent, nous avons assez peu de preuves de leur efficacité ». Le score de risque de défaillance de crédit, Fico, est né dans les années 50 et se déploie à la fin des années 80, en même temps que naissent les premiers scores de risque criminels… Mais c’est avec le développement du machine learning dans les années 2010 que les systèmes prédictifs vont exploser dans d’innombrables systèmes.
Toutes les prédictions ne sont pas difficiles. Le trafic, l’évolution de certaines maladies… sont assez faciles. Les prédictions individuelles, elles, sont toujours plus difficiles. Et cela pose la question de savoir ce qui définit une bonne prédiction. Est-ce qu’une prédiction météo est bonne si elle est au degré près ou si elle prédit bien la pluie indépendamment de la température ? Notre capacité à prédire les tremblements de terre est excellente, notamment les lieux où ils auront lieu, mais notre capacité à prédire la nécessité d’une évacuation est nulle, car prédire quand ils auront lieu avec suffisamment de précision est bien plus difficile. Bien souvent, la précision de la prédiction s’améliore quand on ajoute plus de données et de meilleurs modèles. Mais ce n’est pas nécessairement vrai. On ne peut prédire le résultat d’un jet de dé quel que soit le volume de données que l’on collecte !
Quand les choses sont difficiles à prédire, on a recours à d’autres critères, comme l’utilité, la légitimité morale ou l’irréductibilité des erreurs pour apprécier si la prédiction est possible. Et tout ce qui a rapport à l’individu est bien souvent difficile à prédire, ce qui n’empêche pas beaucoup d’acteurs de le faire, non pas tant pour prédire quelque chose que pour exercer un contrôle sur les individus.
Kapoor et Narayanan reviennent alors sur le Fragile Families Challenge qui a montré que les modèles d’IA prédictibles développés n’amélioraient pas notablement la prédiction par rapport à un simple modèle statistique. Pour les chercheurs, le défi a surtout montré les limites fondamentales à la prédiction du social. Dans le social, « on ne peut pas prédire très bien le futur, et nous ne connaissons pas les limites fondamentales de nos prédictions ». Les données du passé ne suffisent pas à construire ce type de prédictions, comme les données d’une précédente élection ne peuvent pas prédire la suivante. Améliorer la précision des prédictions du social relève du problème à 8 milliards de Matt Salganik : il n’y a pas assez de gens sur terre pour découvrir les modèles de leurs existences ! Cela n’empêche pas qu’il existe d’innombrables outils qui affirment pouvoir faire des prédictions à un niveau individuel.
En vérité, bien souvent, ces outils ne font guère mieux qu’une prédiction aléatoire. Compas par exemple ne fait que prédire la partialité de la police à l’encontre des minorités (et dans le cas de Compas, l’amélioration par rapport à un résultat aléatoire est assez marginale… et dans nombre d’autres exemples, l’amélioration du calcul se révèle bien souvent plus mauvaise qu’un résultat aléatoire). Utiliser seulement 2 données, l’âge et le nombre d’infractions antérieures, permet d’avoir un résultat aussi précis que celui que propose Compas en mobilisant plus d’une centaine de données. Dans le cas de la récidive, le modèle est assez simple : plus l’âge est bas et plus le nombre d’infractions antérieures est élevé, plus la personne sera à nouveau arrêtée. On pourrait d’ailleurs n’utiliser que le nombre d’infractions antérieures pour faire la prédiction sans que les résultats ne se dégradent vraiment (qui serait moralement plus acceptable car en tant que société, on pourrait vouloir traiter les plus jeunes avec plus d’indulgence qu’ils ne le sont). L’avantage d’une telle règle, c’est qu’elle serait aussi très compréhensible et transparente, bien plus que l’algorithme opaque de Compas.
Avec ces exemples, les deux chercheurs nous rappellent que la grande disponibilité des données et des possibilités de calculs nous font oublier que l’opacité et la complexité qu’ils génèrent produisent des améliorations marginales par rapport au problème démocratique que posent cette opacité et cette complexité. Nous n’avons pas besoin de meilleurs calculs – que leur complexification ne produit pas toujours –, que de calculs capables d’être redevables. C’est je pense le meilleur apport de leur essai.
Nous sommes obnubilés à l’idée de prédire un monde imprévisible
Prédire le succès est aussi difficile que prédire l’échec, rappellent-ils. Certainement parce que contrairement à ce que l’on pense, le premier ne repose pas tant sur les qualités des gens que le second ne repose sur les circonstances. Les deux reposent sur l’aléatoire. Et en fait, le succès repose plus encore sur l’aléatoire que l’échec ! Le succès est encore moins prévisible que l’échec, tant la chance, c’est-à-dire l’imprévisible, joue un rôle primordial, rappellent-ils. Le succès dans les études, le succès de produits… rien n’est plus difficile à prédire, rappellent les chercheurs en évoquant les nombreux rejets du manuscrit de Harry Potter. Matt Salganik avait ainsi créé une application de musique et recruté 14 000 participants pour évaluer des musiques de groupes inconnus avec des indicateurs sociaux qui variaient entre groupes de participants. Des chansons médiocres étaient appréciées et de très bonnes musiques négligées. Une même chanson pouvait performer dans un endroit où les métriques sociales étaient indisponibles et sous performer là où elles étaient disponibles. Mais l’expérience a surtout montré que le succès allait au succès. Dans l’environnement où personne ne voyait de métriques : il y avait bien moins d’inégalités entre les musiques.
Les médias sociaux reposent sur des principes d’accélération de la viralité d’une petite fraction des contenus. Mais la popularité est très variable, d’un contenu l’autre. Ce que font les plateformes, ce n’est pas tant de prédire l’imprévisible que de tenter d’amplifier les phénomènes. Sur YouTube, Charlie Bit My Finger fut l’une des premières vidéos virales de la plateforme. Malgré ses qualités, son succès n’avait rien d’évident. En fait, les médias sociaux sont « une loterie à mèmes géante ». Plus un mème est partagé, plus il a de la valeur et plus les gens vont avoir tendance à le partager. Mais il est impossible de prédire le succès d’une vidéo ou d’un tweet. Même la qualité ne suffit pas, même si les contenus de meilleure qualité ont plus de chance que les contenus médiocres. Par contre l’on sait que les contenus plus partisans, plus négatifs reçoivent plus d’engagements. Reste que la polarisation perçue est plus forte que la polarisation réelle – et il est probable que cette mauvaise perception la renforce.
D’une manière assez surprenante, nous prédisons très bien des effets agrégés et très mal ces mêmes effets individuellement. Les ordres de grandeur aident à prédire des effets, mais les experts eux-mêmes échouent bien souvent à prédire l’évidence. Aucun n’a prévu l’effondrement de l’URSS, rappelait Philip Tetlock. Et ce n’est pas une question de données ou de capacité d’analyse. Les limitations à la prédictions sont dues aux données indisponibles et au fait qu’elles sont parfois impossibles à obtenir. Mais la prédiction est également difficile à cause d’événements imprévisibles, mais plus encore à cause de boucles d’amplification complexes. Dans de nombreux cas, la prédiction ne peut pas s’améliorer, comme dans le cas de la prédiction du succès de produits culturels. Dans certains cas, on peut espérer des améliorations, mais pas de changements majeurs de notre capacité à prédire l’avenir. Pour Narayanan et Kapoor, notre obnubilation pour la prédiction est certainement le pire poison de l’IA.
L’IA générative, ce formidable bullshiter
Bien moins intéressants sont les 2 chapitres dédiés à l’IA générative, où les propos des deux chercheurs se révèlent assez convenus. S’il est difficile de prédire l’impact qu’elle va avoir sur l’économie et la culture, la technologie est puissante et les avancées réelles. Pour Narayanan et Kapoor, l’IA générative est déjà utile, expliquent-ils en évoquant par exemple Be My Eyes, une application qui connectait des aveugles à des volontaires voyants pour qu’ils les aident à décrire le monde auquel ils étaient confrontés en temps réel. L’application s’est greffée sur ChatGPT pour décrire les images avec un réel succès, permettant de remplacer les descriptions du monde réel des humains par celles des machines.
Si l’IA générative fonctionne plutôt très bien, ce n’est pas pour autant qu’elle ne peut pas porter préjudices aux gens qui l’utilisent. Ses biais et ses erreurs sont nombreuses et problématiques. Sa capacité à nous convaincre est certainement plus problématique encore.
Les deux chercheurs bien sûr retracent l’histoire des améliorations de la discipline qui a surtout reposé sur des améliorations progressives, la disponibilité des données et l’amélioration des capacités de calcul. Tout l’enjeu de la technologie a été d’apprendre à classer les images ou les mots depuis les connexions entre eux en appliquant des poids sur les critères.
En 2011, à l’occasion d’une compétition ImageNet, visant à classifier les images, Hinton, Krizhevsky et Sutskever proposent un outil d’apprentissage profond qui se distingue par le fait qu’il ait bien plus de couches de traitements que les outils précédents : ce sera AlexNet. Tout l’enjeu ensuite, consistera à augmenter le nombre de couches de traitements en démultipliant les données… À mesure que les données deviennent plus massives, les contenus vont aussi avoir tendance à devenir plus problématiques, malgré les innombrables mesures de filtrages. Les problèmes vont y être enfouis plus que résolus, comme l’étiquetage de personnes noires sous le terme de Gorille. On va se mettre alors à mieux observer les données, mais la plupart des critères de référence ne mesurent pas dans quelle mesure les modèles reflètent les préjugés et les stéréotypes culturels. Le problème, c’est que dans le domaine de l’IA, les ingénieurs sont convaincus que découvrir les connaissances dans les données surpasse l’expertise, minimisant son importance.
« Alors que l’IA prédictive est dangereuse parce qu’elle ne fonctionne pas. L’IA pour la classification des images est dangereuse parce qu’elle fonctionne trop bien. »
Les systèmes de génération de texte fonctionnent sur le même principe que les systèmes de génération d’image. Jusqu’aux années 2010, il était difficile que les systèmes de traduction automatique gardent en tête le contexte. Ils fonctionnaient bien sur les courts extraits, mais avaient des problèmes avec des textes plus longs. En 2017, Google a trouvé la solution en proposant une matrice plus grande permettant de mieux relier les mots entre eux. C’est la technologie Transformer. L’IA générative textuelle n’est rien d’autre qu’un système d’autocomplétion qui fait de la prédiction du mot suivant.
La puissance de ces machines est à la fois leur force et leur faiblesse. « Pour générer un simple token – un bout de mot – ChatGPT doit accomplir environ un milliard de milliard d’opérations. Si vous demandez à générer un poème d’une centaine de tokens (une centaine de mots) cela nécessitera un quadrillion de calculs. Pour apprécier la magnitude de ce nombre, si tous les individus au monde participaient à ce calcul au taux d’un calcul par minute, 8 heures par jour, un quadrillon de calcul prendrait environ une année. Tout cela pour générer une simple réponse. » La capacité générative de ces outils repose sur une puissance sans limite. Une puissance dont les coûts énergétiques, matériels et économiques finissent par poser question. Avons-nous besoin d’une telle débauche de puissance ?
Pour que ces modèles répondent mieux et plus exactement, encore faut-il adapter les modèles à certaines tâches. Cette adaptation, le fine-tuning ou pré-entraînement, permet d’améliorer les résultats. Reste que ces adaptations, ces filtrages, peuvent finir par sembler être une cuillère pour écoper les problèmes de l’océan génératif…
Les chatbots peuvent avoir d’innombrables apports en interagissant avec l’utilisateur, mais le fait qu’ils dépendent profondément des statistiques et le manque de conscience de leurs propres limites, émousse leur utilité, soulignent les deux chercheurs. Jouer à Pierre-papier-ciseaux avec eux par exemple rappellent qu’ils ne comprennent pas l’enjeu de simultanéité.
Le problème de ces outils, c’est que la compréhension, n’est pas tout ou rien. Les chatbots ne comprennent rien, et leur regard sur un sujet est limité par leurs données. Mais ils sont configurés pour répondre avec confiance, comme un expert, alors qu’ils sont capables d’erreurs basiques qu’un enfant ne ferait pas. Cela signifie que ces outils ne sont pas sans écueils, rappellent les chercheurs. Ils produisent très facilement de la désinformation, des deepfakes, et permettent à ceux qui les déploient de concentrer un pouvoir très important. Les chatbots sont des bullshiters de première, des menteurs. « Ils sont entraînés pour produire des textes plausibles, pas des vérités ». Ils peuvent sembler très convaincants alors qu‘ »il n’y a aucune source vérifiée durant leur entraînement ». Même si on était capable de ne leur fournir que des affirmations vraies, le modèle ne les mémoriserait pas, mais les remixerait pour générer du texte. Ils répondent souvent correctement, mais sont capables parfois de produire des choses sans aucun sens. Cela tient certainement au fait que « les affirmations vraies sont plus plausibles que les fausses ». Les erreurs, les plagiats sont consubstantiels à la technologie.
Les usages problématiques de ces technologies sont nombreux, notamment les deepfakes et toutes les tentatives pour tromper les gens que ces outils rendent possibles. Pour l’instant, les réponses à ces enjeux ne sont pas à la hauteur. Les chercheurs ne proposent que de mieux éduquer les utilisateurs aux contenus trompeurs et aux sources fiables. Pas sûr que ce soit une réponse suffisante.
Les chercheurs rappellent que la grande difficulté à venir va être d’améliorer l’IA générative, alors que ses limites sont au cœur de son modèle, puisqu’elle ne peut qu’imiter et amplifier les stéréotypes des données qui l’ont entraîné. Pour y parvenir, il faudrait parvenir à bien mieux labelliser les données, mais l’effort devient herculéen à mesure que les moissons sont plus massives. Pour l’instant, cette labellisation repose surtout sur des travailleurs du clic mal payés, chargés de faire une labellisation à minima. Pas sûr que cela suffise à améliorer les choses…
Malgré ces constats inquiétants, cela n’empêche pas les deux chercheurs de rester confiants. Pour eux, l’IA générative reste une technologie utile, notamment aux développeurs. Ils rappellent que ces dernières années, la question des biais a connu des progrès, grâce au fine-tuning. L’atténuation des bias est un secteur de recherche fructueux. Les chatbots progressent et deviennent aussi fiables que la recherche en ligne, notamment en étant capable de citer leurs sources. Pour les chercheurs, le plus gros problème demeure l’exploitation du travail d’autrui. Nous devons opter pour les entreprises qui ont des pratiques les plus éthiques, concluent-ils, et faire pression sur les autres pour qu’ils les améliorent. Oubliant qu’il n’est pas simple de connaître l’éthique des pratiques des entreprises…
Les deux ingénieurs terminent leur livre par un chapitre qui se demande si l’IA pose une menace existentielle. Un sujet sans grand intérêt face aux menaces déjà bien réelles que fait peser l’IA. Ils le balayent d’ailleurs d’un revers de main et rappellent que l’IA générale est encore bien loin. « La plupart des connaissances humaines sont tacites et ne peuvent pas être codifiées ». C’est comme apprendre à nager ou à faire du vélo à quelqu’un simplement en lui expliquant verbalement comment faire. Ça ne marche pas très bien. Le risque à venir n’est pas que l’IA devienne intelligente, nous en sommes bien loin. Le risque à venir repose bien plus sur les mauvais usages de l’IA, et ceux-ci sont déjà très largement parmi nous. Pour améliorer notre protection contre les menaces, contre la désinformation ou les deepfakes, nous devons renforcer nos institutions démocratiques avancent les auteurs. On ne saurait être plus en accord, surtout au moment où les avancées de l’IA construisent des empires techniques qui n’ont pas grand chose de démocratique.
*
Malgré ses qualités et la richesse de ses exemples, le livre des deux chercheurs peine à rendre accessible ce qu’ils voudraient partager. Parvenir à distinguer ce que l’IA sait faire et ce qu’elle ne peut pas faire n’est pas évident pour ceux qui sont amenés à l’utiliser sans toujours comprendre sa complexité. Distinguer la bonne IA de la mauvaise n’est pas si simple. Le livre permet de comprendre que la prédiction fonctionne mal, mais sans nous aider à saisir où elle peut progresser et où elle est durablement coincée.
On a bien constaté que dès que ces outils agissent sur le social où l’individu, ils défaillent. On a bien compris que l’IA générative était puissante, mais les deux ingénieurs peinent à nous montrer là où elle va continuer à l’être et là où elle risque de produire ses méfaits. Les deux spécialistes, eux, savent très bien identifier les pièges que l’IA nous tend et que l’IA tend surtout aux ingénieurs eux-mêmes, et c’est en cela que la lecture d’AI Snake Oil est précieuse. Leur livre n’est pourtant pas le manuel qui permet de distinguer le poison du remède. Certainement parce que derrière les techniques de l’IA, le poison se distingue du remède d’abord et avant tout en regardant les domaines d’applications où elle agit. Un outil publicitaire défaillant n’a rien à voir avec un outil d’orientation défaillant.. Gardons les bons côtés. Les ingénieurs ont enfin un livre critique sur leurs méthodes avec un regard qui leur parlera. Ce n’est pas un petit gain. Si le livre se révèle au final un peu décevant, cela n’empêche pas qu’Arvind Narayanan et Sayash Kapoor demeurent les chercheurs les plus pertinents du milieu. Leur grande force est d’être bien peu perméables au bullshit de la tech, comme le montre leur livre et leur excellente newsletter. Leur défense de la science sur l’ingénierie par exemple – « les essais contrôlés randomisés devraient être un standard dans tous les domaines de la prise de décision automatisée » – demeure une boussole que l’ingénierie devrait plus souvent écouter.
Répondre à cet article
Suivre les commentaires : |