GenAI : maîtriser les biais dans les applications

GenAI maitriser les biais
  • Publication
  • 20 minutes de lecture
  • 14 juin 2024

Les progrès rapides de l'intelligence artificielle (IA) et leur intégration dans les systèmes d’information des entreprises ont attiré l’attention des dirigeants sur l’utilisation responsable de la technologie. L’IA générative (GenAI), en particulier, est perçue à la fois comme une opportunité et un facteur de risques accrus. 

 

Selon la 27e CEO Survey de PwC, un grand nombre de dirigeants estiment que la GenAI apportera de nombreux bénéfices, notamment en termes d’efficacité du temps de travail, mais pourrait aussi augmenter certains risques : attaques cyber (66% en France, 64% dans le monde), propagation de la désinformation (55%, 52%), menaces réputationnelles ou de responsabilité juridique (58%, 46%), préjugés envers des groupes spécifiques de clients ou de collaborateurs (45%, 34%). 

 

Concernant ce dernier risque, il existe des moyens tangibles d’éviter d’importer des biais dans les applications d’IA générative. Ces précautions, qui relèvent de la responsabilité sociétale de l’entreprise, sont indispensables pour établir la confiance dans les solutions basées sur la GenAI, et donc leur adoption.

 

Quels résultats si l’on tape « écolière » ou « écolier » dans un moteur de recherche ? Dans le premier cas, probablement un lot d’images de femmes et de filles dans des tenues sexualisées. Dans le second, de jeunes écoliers ordinaires. Avec l'intelligence artificielle aussi, les préjugés de genre et autres représentations profondément ancrées dans nos sociétés, des attitudes homophobes aux stéréotypes raciaux, s’invitent dans les résultats.

En savoir plus

Dans aucun autre domaine, la boussole éthique n'est plus pertinente que dans celui de l'intelligence artificielle.

Gabriela Ramos, Sous-Directrice générale pour les Sciences sociales et humaines de l'UNESCO

La reproduction des préjugés par la GenAI : une fatalité ?

Dans la pratique, l'un des défis posés par les grands modèles de langage qui sous-tendent la GenAI est de collecter des données qui représentent une population diversifiée, sans introduire ni reproduire de préjugés. Or, les modèles linguistiques de grande taille étant entraînés avec d'énormes ensembles de données historiques, ils perpétuent le meilleur comme le pire de ce qui existe dans la société. 

Il faut donc activement s’assurer que les informations sur lesquelles ces machines s’entraînent puissent produire des résultats souhaitables en termes de diversité. Cela peut impliquer des compromis. Par exemple, renoncer à certaines performances pour ne pas exposer le modèle à des données d'entrée explicitant la race ou le sexe, qui risqueraient de perpétuer une différenciation biaisée constatée dans les données.

  • Les données d’entraînement - Si les données utilisées pour entraîner le modèle sont entachées de préjugés, cela se reflétera dans les résultats.

  • Les choix faits lors de la conception du modèle - Par exemple, si le modèle est conçu en privilégiant certaines caractéristiques, il produira des résultats en conséquence.

  • Les objectifs du modèle - Par exemple, si les concepteurs cherchent à maximiser la ressemblance avec les images d’entraînement, le modèle ne sera pas en mesure de générer des images s’écartant des données d'entraînement.

Comment éviter d’importer des biais dans son IA générative ?

Il existe plusieurs moyens de circonscrire les préjugés. Les trois suivants sont d’autant plus intéressants qu’ils permettent également de protéger la confidentialité des données.

Si le point 1 ci-dessous concerne tous les utilisateurs de GenAI, les points 2 et 3 en revanche ne concernent que les utilisateurs de GenAI créant leur propre LLM. Certaines entreprises, en effet, voudront maîtriser les données sur lesquelles leur LLM est entraîné : parce que les enjeux de confidentialité sont tels que les données ne peuvent sortir de l'organisation (dans les industries de l’aérospatiale et de la défense, par exemple) ; ou parce que les LLM génériques ne reflètent pas les spécificités sémantiques ou syntaxiques du corpus de textes de l'entreprise.

Il existe plusieurs moyens de challenger les résultats : contrôle humain, évaluation des biais, boucles de rétroaction (feedback loops) … Une autre approche est de charger une équipe de défier, attaquer ou exploiter un système d'IA afin d'identifier son potentiel d'utilisation abusive, pour y remédier. Les vulnérabilités ainsi repérées peuvent porter sur la toxicité des messages, le manque d'inclusion ou l'expression de préjugés.

Qu’est-ce qu'une équipe rouge ?

Les équipes rouges sont apparues dans le domaine cyber. Dans une démarche de prévention des risques, notamment informatiques, une organisation peut constituer une équipe rouge jouant le rôle d’un ennemi. Missionnée pour simuler un comportement hostile, comme une attaque cyber, l’équipe rouge contribue à repérer des failles pour y remédier. Des entreprises, dont des géants de la tech, utilisent ce dispositif pour rendre leurs modèles d’intelligence artificielle plus sûrs.

Enfin, il est souhaitable d'éviter d'entraîner un modèle sur des données aux contenus nuisibles, comme des images violentes. Mais faire le tri pour garantir la sécurité de chaque information n'est pas une tâche facile, puisque les modèles de GenAI sont entraînés sur des ensembles contenant des millions de données. Dans certains cas, il est possible d'utiliser des lots de données d'entraînement fortement filtrés pour les expurger de contenus explicites ou illégaux. L'IA elle-même peut être mise à contribution pour confirmer que le contenu d'entraînement est sûr.

Ici, ce ne sont plus les résultats qui sont challengés, mais la source qui est retravaillée. Le LLM prend en compte les caractéristiques (par exemple ethniques, de genre, etc.) du jeu de données et, selon les cas, les sur- ou sous-représente afin de corriger les biais : c’est ce que l’on appelle équilibrer les données d’entraînement.

La bonne pratique : une IA responsable dès la conception

S’il est utile de contrôler les données qui circulent dans un modèle, une entreprise ne peut se contenter d’une analyse post-mortem. Il est nécessaire, en amont, d’intégrer les meilleures pratiques dans les processus de développement et de déploiement de l'IA. En, effet, un cadre d'IA responsable doit mettre l'accent sur la confiance dès la conception. 

Les entreprises savent qu'elles ont besoin d’une IA responsable, mais. peu ont déjà atteint un niveau de maturité suffisant. L’effort humain et financier, important, en vaut cependant la peine. 

  • À partir d’une certaine échelle, les projets d’IA ne peuvent tout simplement pas s’en passer. 

  • À court terme, on passe plus de temps à s'assurer que les choses fonctionnent, mais cela permet d'aller plus vite à long terme.

Les entreprises se sentent poussées à agir rapidement pour tirer parti de l'efficacité et de l'innovation qu'offre l'IA, mais le faire sans mettre en place des garde-fous adéquats peut en fin de compte les ralentir - ou pire encore, causer un préjudice sociétal important. Intégrer les principes d’une IA responsable dans l'état d'esprit, les pratiques et les outils de l'entreprise est une condition indispensable à la sécurité et à la réussite des projets d’IA.

Lire l’article complet : From principles to practice: Responsible AI in action

Merci à Ombline de Mascureau, Senior manager, et à Selma Mehyaoui, Associate, PwC France et Maghreb, pour leur contribution à ce texte.

Suivez-nous !

Contactez-nous

Pierre Bosquet

Pierre Bosquet

Associé, stratégie digitale et IA, PwC France et Maghreb

Benoît Sureau

Benoît Sureau

Associé, Financial Institutions, Risk Management & Blockchain, PwC France et Maghreb

Pierre Capelle

Pierre Capelle

Associé responsable de l’activité Data Analytics et Intelligence Artificielle, PwC France et Maghreb

Masquer