Les 12 erreurs célèbres de l’IA
Résumé de l’article :
Les erreurs des projets d’IA peuvent avoir des conséquences graves, souvent dues à la qualité ou à la complétude des données d’entraînement. Voici un résumé des 12 bévues célèbres provoquées par la technologie :
- McDonald’s et les commandes au volant : L’IA a mal compris les commandes, causant frustration et confusion.
- Grok et Klay Thompson : Le chatbot d’Elon Musk a faussement accusé la star de la NBA de vandalisme.
- MyCity à New York : Le chatbot a donné des conseils erronés aux entrepreneurs, les incitant à enfreindre la loi.
- Air Canada : L’assistant virtuel a fourni des informations incorrectes sur les tarifs de deuil, entraînant des dommages et intérêts.
- Sports Illustrated : Accusé de publier des articles rédigés par des IA sous de faux noms.
- iTutor Group : L’IA de recrutement a rejeté des candidats en raison de leur âge, entraînant un procès.
- ChatGPT et les précédents judiciaires : L’IA a inventé des cas juridiques inexistants, causant des problèmes à un avocat.
- Algorithmes de diagnostic Covid-19 : Les outils prédictifs ont échoué à diagnostiquer correctement le virus.
- Zillow : L’algorithme de prédiction des prix des maisons a conduit à des pertes financières importantes.
- Algorithme de soins de santé : Moins susceptible de signaler les patients noirs pour des programmes de gestion des soins à haut risque.
Ces exemples montrent que les erreurs d’IA peuvent affecter la réputation, les revenus et même la vie des personnes. Il est crucial de s’assurer de la qualité des données et de la robustesse des algorithmes pour éviter de telles bévues.
Détail de l’article :
Si les enseignements tirés des données et des algorithmes d’IA peuvent être inestimables, leurs erreurs peuvent être lourdes de conséquences. Tour d’horizon de ce qui peut mal tourner avec 12 bévues célèbres provoquées par la technologie.
En 2017, The Economist déclarait que les données, plutôt que le pétrole, étaient devenues la ressource la plus précieuse au monde. Le refrain n’a cessé d’être répété depuis. Les organisations de tous les secteurs ont investi, et continuent d’investir massivement, dans les données et l’analytique. Mais, tout comme le pétrole, les données et les analyses qu’elles génèrent ont leur côté obscur.
Selon le rapport State of the CIO 2023 de CIO, 26 % des responsables informatiques affirment que l’apprentissage automatique (ML) et l’IA seront à l’origine des investissements les plus importants de leur organisation en matière d’IT. Mais si les algorithmes peuvent donner aux organisations un avantage concurrentiel, leurs erreurs peuvent être coûteuses en termes de réputation, de revenus, voire de vies.
Voici quelques bévues d’IA très médiatisées de la dernière décennie pour illustrer tout ce qui peut mal tourner avec cette technologie
1) La sortie de route de McDonald’s avec ses commandes au volant
Après avoir collaboré avec IBM pendant trois ans afin d’exploiter l’IA pour permettre aux consommateurs de passer leurs commandes au volant, McDonald’s a mis fin à l’expérience en juin 2024. La raison ? Une multitude de vidéos sur les réseaux sociaux montrant des clients confus et frustrés essayant de faire comprendre leurs instructions à l’IA.
Une vidéo TikTok en particulier montrait deux personnes implorant à plusieurs reprises l’IA d’arrêter alors qu’elle continuait à ajouter des Chicken McNuggets à leur commande, pour finalement atteindre le total de 260. Dans une note interne datée du 13 juin 2024 et obtenue par la publication professionnelle Restaurant Business, McDonald’s a annoncé qu’elle mettrait fin à son partenariat avec IBM et arrêterait les tests. La chaîne de fast-foods avait testé l’IA dans plus de 100 drives aux États-Unis.
2) Grok accuse à tort une star de la NBA de vandalisme
Dans un message publié sur X en avril 2024, Grok, le chatbot d’Elon Musk, a accusé à tort la star de la NBA Klay Thompson d’avoir jeté des briques dans les fenêtres de plusieurs maisons à Sacramento, en Californie.
Certains commentateurs ont émis l’hypothèse que Grok avait peut-être halluciné cette partie de la biographie de la star des Golden State Warriors, depuis passée chez les Dallas Mavericks, après avoir ingéré des messages sur Thompson « jetant des briques », expression courante au basket-ball pour désigner un tir malheureux. Lors de son dernier match avec les Golden State Warriors, l’équipe a subi une défaite cuisante, ce qui constitue la pire performance d’après-saison de la carrière de Klay Thompson.
Grok affiche une clause de non-responsabilité indiquant : « Grok est encore en développement et peut faire des erreurs. Vérifiez ses résultats. » Néanmoins, l’incident soulève des questions relative à la responsabilité des développeurs de chatbot d’IA donnant des réponses fausses et diffamatoires.
3) Quand la ville de New York encourage les patrons à enfreindre la loi
En mars 2024, The Markup a rapporté que le chatbot MyCity, alimenté par Microsoft, donnait aux entrepreneurs des informations erronées qui les conduisaient à enfreindre la loi.
Présenté en octobre 2023, MyCity avait pour but de fournir aux New-Yorkais des informations sur la création et l’exploitation d’entreprises dans la ville, ainsi que sur la politique du logement et les droits des travailleurs. Sauf que The Markup a découvert que MyCity affirmait à tort que les propriétaires d’entreprises pouvaient prélever une partie des pourboires de leurs employés, licencier les travailleurs qui se plaignent de harcèlement sexuel et servir de la nourriture qui a été grignotée par des rongeurs. Le chatbot a également affirmé que les propriétaires de logements pouvaient trier les locataires en fonction de la source de leurs revenus.
À la suite de ces révélations, le maire de New York, Eric Adams, mis en examen, a défendu le projet. Le chatbot reste en ligne.
4) Air Canada paie des dommages et intérêts pour les mensonges de son chatbot
En février 2024, Air Canada a été condamnée à verser des dommages et intérêts à un passager après que son assistant virtuel lui a donné des informations erronées à un moment particulièrement difficile pour lui.
Ce passager, Jake Moffatt, a consulté l’assistant virtuel d’Air Canada au sujet des tarifs de deuil pratiqués par la compagnie, à la suite du décès de sa grand-mère en novembre 2023. Le chatbot lui a dit qu’il pouvait acheter un billet à prix normal de Vancouver à Toronto et demander une réduction pour décès dans les 90 jours suivant l’achat. Suivant ce conseil, Jake Moffatt a acheté un billet aller simple de 794,98 dollars canadiens pour Toronto et un vol retour de 845,38 dollars canadiens pour Vancouver.
Mais lorsque Jake Moffatt a présenté sa demande de remboursement, la compagnie aérienne l’a refusée, arguant que les tarifs de deuil ne peuvent être réclamés après l’achat des billets.
Sur la base des captures d’écran qu’il avait pris la précaution d’effectuer, Jake Moffatt a porté plainte contre Air Canada, affirmant que la compagnie aérienne avait fait preuve de négligence et qu’elle avait fourni de fausses informations par l’intermédiaire de son assistant virtuel. De son côté, Air Canada a tenté de faire valoir qu’elle ne pouvait être tenue responsable des informations fournies par son chatbot.
Un argument rejeté par la justice canadienne, qui a estimé que la compagnie aérienne n’avait pas pris « des précautions raisonnables pour s’assurer que son chatbot était exact ». Elle a donc ordonné à la compagnie aérienne de verser à Jake Moffatt 812,02 dollars canadiens, dont 650,88 au titre des dommages et intérêts.
5) Sports Illustrated aurait publié des articles rédigés par des IA
En novembre 2023, sur la base de sources anonymes, le magazine en ligne Futurism a affirmé que Sports Illustrated publiait des articles rédigés par de faux auteurs générés par l’IA. Le magazine en ligne a découvert que les photos des auteurs en question figuraient sur un site qui vend des portraits générés par l’IA. Futurism a alors contacté le groupe Arena, éditeur de Sports Illustrated, qui a déclaré dans un communiqué que les articles en question étaient des contenus sous licence d’un tiers, AdVon Commerce.
« Nous surveillons continuellement nos partenaires et nous étions en train de procéder à un examen lorsque ces allégations ont été soulevées », a déclaré le groupe Arena dans le communiqué fourni à Futurism. « AdVon nous a assuré que tous les articles en question avaient été écrits et édités par des humains. »
La déclaration indique également que les rédacteurs d’AdVon ont utilisé des noms de plume ou des pseudonymes dans certains articles, en précisant que le groupe Arena n’approuve pas ces actions. L’éditeur de presse a ensuite retiré les articles en question du site web de Sports Illustrated.
En réponse à l’article de Futurism, le syndicat de Sports Illustrated a publié une déclaration dans laquelle il se dit horrifié par ces allégations et exige des réponses et de la transparence de la part de la direction d’Arena Group. « Si elles sont vraies, ces pratiques violent tout ce en quoi nous croyons en matière de journalisme », a déclaré le syndicat dans son communiqué. « Nous déplorons d’être associés à quelque chose d’aussi irrespectueux pour nos lecteurs. »
6) L’IA de recrutement de iTutor rejette les candidats en raison de leur âge
En août 2023, la société de tutorat iTutor Group a accepté de payer 365 000 dollars pour régler un procès intenté par la Commission américaine pour l’égalité des chances en matière d’emploi (EEOC). L’agence fédérale a déclaré que l’entreprise, qui fournit des services de tutorat à distance à des étudiants en Chine, utilisait un logiciel de recrutement alimenté par l’IA qui rejetait automatiquement les candidates âgées de 55 ans et plus, et les candidats âgés de 60 ans et plus.
Selon l’EEOC, plus de 200 candidats qualifiés ont été ainsi automatiquement rejetés par le logiciel. « La discrimination fondée sur l’âge est injuste et illégale », a déclaré Charlotte Burrows, présidente de l’EEOC, dans un communiqué. « Même lorsque la technologie automatise la discrimination, l’employeur reste responsable. »
Le groupe iTutor a nié tout acte répréhensible, mais a décidé de régler le litige. Dans le cadre de cette procédure, il a accepté d’adopter de nouvelles politiques antidiscriminatoires.
7) Quand ChatGPT ne connaît pas les précédents judiciaires, il les invente
Les progrès réalisés en 2023 par les grands modèles de langage (LLM) ont suscité un intérêt généralisé pour le potentiel de l’IA générative dans presque tous les secteurs d’activité. Le ChatGPT d’OpenAI a été au centre de ce regain d’intérêt, mais la technologie a encore un long chemin à parcourir avant de pouvoir prendre en charge de manière fiable la plupart des processus, comme l’a appris à ses dépens l’avocat Steven Schwartz. Ce dernier, avocat chez Levidow, Levidow & Oberman à New York, a utilisé le chatbot d’OpenAI pour trouver des cas antérieurs à l’appui d’un procès intenté par Roberto Mata, employé de la compagnie aérienne colombienne Avianca, contre son ex-employeur pour des blessures subies en 2019. Mais au moins six des affaires présentées par Steven Schwartz dans ce dossier n’existaient pas. Une supercherie démasquée par le juge de district américain Kevin Castel.
Dans un document déposé en mai de l’année dernière, ce dernier a noté que les cas soumis par Steven Schwartz comprenaient de faux noms et de faux numéros de dossier, ainsi que de fausses citations. L’associé de Schwartz, Peter LoDuca, était l’avocat attitré de Mata et a signé le dossier, s’exposant lui aussi par la même occasion.
Dans une déclaration sous serment, Steven Schwartz a déclaré au tribunal que c’était la première fois qu’il utilisait ChatGPT comme source de recherche juridique et qu’il n’était « pas conscient de la possibilité que son contenu puisse être faux ». Il a admis qu’il n’avait pas confirmé les sources fournies par le chatbot, et a regretté d’avoir utilisé l’IA pour compléter ses recherches juridiques, ajoutant qu’il ne le ferait plus à l’avenir sans en vérifier l’authenticité.
En juin 2023, le juge Castel a imposé une amende de 5 000 dollars à Schwartz et LoDuca et, dans une autre décision rendue en juin, le juge Castel a rejeté les poursuites engagées par Mata contre Avianca.
8) Les algorithmes identifient tout sauf le Covid-19
Depuis le début de la pandémie de Covid-19 en 2020, de nombreuses organisations ont cherché à appliquer des algorithmes d’intelligence artificielle pour aider les hôpitaux à diagnostiquer ou à trier les patients plus rapidement. Mais selon l’Institut Turing, un centre national pour la Data Science et l’IA au Royaume-Uni, les outils prédictifs n’ont fait que peu ou pas de différence en la matière
La MIT Technology Review a fait état d’un certain nombre d’échecs, dont la plupart découlent d’erreurs dans la manière dont les outils ont été formés ou testés. L’utilisation de données mal étiquetées, ou de données provenant de sources inconnues, est une cause d’échec courante.
Derek Driggs, chercheur en Machine Learning à l’université de Cambridge, et ses collègues ont publié un article dans Nature Machine Intelligence qui explore l’utilisation de modèles de Deep Learning pour diagnostiquer le virus. L’article a déterminé que la technique n’était pas adaptée à une utilisation clinique. Par exemple, le groupe de Derek Driggs a constaté que son propre modèle était défectueux parce qu’il avait été entraîné sur un ensemble de données comprenant des scanners de patients allongés et de patients debout. Les patients allongés étant beaucoup plus susceptibles d’être gravement malades, l’algorithme a appris à identifier le risque de Covid en fonction de la position de la personne sur le scanner.
9) Zillow perd des millions et licencie en raison d’un désastre algorithmique
En novembre 2021, le spécialiste de l’immobilier en ligne Zillow a annoncé à ses actionnaires qu’il mettrait fin à ses activités liées à son service Zillow Offers et qu’il réduirait de 25 % ses effectifs, soit environ 2 000 personnes, au cours des prochains trimestres. Des difficultés de dues au taux d’erreur de l’algorithme de Machine Learning utilisé pour prédire les prix des maisons.
Zillow Offers était un programme par lequel la société proposait des offres d’achat au comptant sur des biens immobiliers, sur la base d’une « estimation » de la valeur de ceux-ci obtenue via un algorithme. L’idée ? Rénover ces propriétés et de les revendre rapidement, avec une plus-value. Mais un porte-parole de Zillow a déclaré à CNN que l’algorithme avait un taux d’erreur médian de 1,9%, qui pouvait atteindre 6,9 % pour les maisons hors marché.
CNN a rapporté que Zillow avait acheté 27 000 maisons par le biais de Zillow Offers depuis son lancement en avril 2018, mais n’en avait revendu que 17 000 à la fin du mois de septembre 2021. Certes, la pandémie de Covid-19 et une pénurie de main-d’oeuvre dans la rénovation résidentielle ont aussi contribué aux problèmes de précision de l’algorithme.
Zillow a néanmoins estimé que l’algorithme l’avait conduit à acheter des maisons à des prix plus élevés que ses estimations actuelles des prix de vente futurs, ce qui a entraîné une dépréciation des stocks de 304 M$ au troisième trimestre 2021. Lors d’une conférence téléphonique avec les investisseurs qui a suivi ces annonces, le cofondateur et Pdg de Zillow, Rich Barton, a déclaré qu’il serait peut-être possible d’améliorer l’algorithme, mais qu’en fin de compte, c’était trop risqué.
10) Un algorithme de soins oublie les patients noirs
En 2019, une étude publiée par Science a révélé qu’un algorithme de prédiction des soins de santé, utilisé par les hôpitaux et les compagnies d’assurance à travers les États-Unis pour identifier les patients nécessitant des programmes de gestion des soins à haut risque, était beaucoup moins susceptible de signaler les patients noirs.
Les programmes de gestion des soins à haut risque permettent aux patients atteints de maladies chroniques de bénéficier d’un personnel infirmier qualifié et d’un suivi des soins primaires afin de prévenir les complications graves. Or, l’algorithme était beaucoup plus susceptible de recommander ces programmes aux patients blancs qu’aux patients noirs.
L’étude a montré que l’algorithme utilisait les dépenses de santé comme indicateur pour déterminer les besoins d’un individu. Or, selon le Scientific American, les dépenses de santé des patients noirs les plus malades étaient comparables à celles des personnes blanches en meilleure santé, ce qui signifie qu’ils recevaient des scores de risque inférieurs, même si leurs besoins étaient plus importants.
Les chercheurs de l’étude suggèrent que plusieurs facteurs peuvent avoir contribué à cette situation. Tout d’abord, les personnes de couleur sont plus susceptibles d’avoir des revenus plus faibles, ce qui, même lorsqu’elles sont assurées, peut les pousser à moins recourir à des soins. Les préjugés implicites peuvent également amener les personnes de couleur à recevoir des soins de moindre qualité. Bien que l’étude n’ait pas nommé l’algorithme, les chercheurs ont déclaré au Scientific American qu’ils travaillaient avec son concepteur pour remédier à cette situation.
11) Le chatbot de Microsoft se met à cracher des tweets racistes
En mars 2016, Microsoft a appris que l’utilisation des interactions Twitter comme données d’entraînement pour les algorithmes de Machine Learning peut aboutir à des résultats consternants.
Microsoft avait alors lancé Tay, un chatbot d’IA, sur la plateforme de médias sociaux, et l’entreprise l’a décrit comme une expérience de « compréhension conversationnelle ». L’idée était que le chatbot prenne l’apparence d’une adolescente et interagisse avec des personnes via Twitter en utilisant une combinaison d’apprentissage machine et de traitement du langage naturel. Microsoft l’a doté de données publiques anonymisées et d’éléments pré-écrits par des humoristes, puis l’a laissé libre d’apprendre et d’évoluer à partir de ses interactions sur le réseau social.
En l’espace de 16 heures, le chatbot a publié plus de 95 000 tweets, qui sont rapidement devenus ouvertement racistes, misogynes et antisémites. Microsoft a rapidement suspendu le service pour procéder à des ajustements et l’a finalement débranché. « Nous sommes profondément désolés pour les tweets involontairement offensants et blessants de Tay, qui ne représentent pas qui nous sommes, ce que nous défendons, ni la manière dont nous avons conçu Tay », a écrit Peter Lee, vice-président de Microsoft Research & Incubations (puis vice-président de Microsoft Healthcare), dans un message publié sur le blog officiel de Microsoft à la suite de l’incident.
Peter Lee a fait remarquer que le prédécesseur de Tay, Xiaoice, lancé par Microsoft en Chine en 2014, avait réussi à mener des conversations avec plus de 40 millions de personnes au cours des deux années précédant la sortie de Tay. Ce que Microsoft n’a pas pris en compte, c’est qu’un groupe d’utilisateurs de Twitter commencerait immédiatement à tweeter des commentaires racistes et misogynes à Tay. Le robot a rapidement pris connaissance de ces propos et les a intégrés dans ses propres tweets.
12) L’IA de recrutement d’Amazon ne recommande que les hommes
Comme beaucoup de grandes entreprises, Amazon est à la recherche d’outils pouvant aider sa fonction RH à sélectionner les meilleurs candidats. En 2014, Amazon a commencé à travailler sur un logiciel de recrutement alimenté par l’IA. Seul problème : le système préférait largement les candidats masculins. En 2018, Reuters a annoncé qu’Amazon avait abandonné le projet.
Les modèles de Machine Learning au coeur du système ont été formés sur 10 ans de CV soumis à Amazon – la plupart d’entre eux provenant d’hommes. À partir de ces données d’entraînement, le système a commencé à pénaliser les phrases des CV contenant le mot « féminin » et a même déclassé des candidates issues d’universités exclusivement féminines.
À l’époque, Amazon a déclaré que l’outil n’avait jamais été utilisé par ses recruteurs pour évaluer les candidats. L’entreprise a ensuite tenté de modifier le système pour le rendre neutre, mais elle a finalement décidé qu’elle ne pouvait pas garantir qu’il n’apprendrait pas une autre façon discriminatoire de trier les candidats et a mis fin au projet.
Une erreur dans l’article?Proposez-nous une correction
Article rédigé par
Thor Olavsruf, IDG NS (adapté par Reynald Fléchaux)