ACCUEIL ›BLOGS

L'IA peut-elle avoir son gâteau et le manger ? La réduction des biais dans les modèles d'IA n'est pas toujours souhaitable
-

Le 20 juin 2023

Ceci est le premier blog du Recherche sur l'IA et COVID : Parcours vers l'égalité des genres et l'inclusion série. Les pièces de cette série sont issues du « writeshop » organisé par Gender at Work dans le cadre du Programme de recherche en science des données et en intelligence artificielle pour lutter contre le COVID-19, également connu sous le nom d'AI4COVID, financé par le ICentre de recherche pour le développement international (CRDI) et le Agence suédoise de développement international (SIDA). Cela faisait partie de la finale Apprentissage par l'action sur le genre atelier organisé à Nairobi, au Kenya, en février 2023.  

Dans ce premier blog, Amelia Taylor, maître de conférences en IA à la Malawi University of Business and Applied Sciences et chercheuse à la INSPIRER LA PÊCHE projet sous AI4COVID, soulève les dilemmes éthiques d'essayer de créer des algorithmes impartiaux et représentatifs des femmes et des hommes touchés par les épidémies.


Ce que j'ai appris sur les préjugés sexistes des échecs et du communisme 

 J'ai grandi en Roumanie dans les années 1980, sous le communisme. Les hommes et les femmes étaient par définition « des agents de production égaux ». 

Pendant ce temps, j'ai appris les échecs avec mon père dès mon plus jeune âge. Il m'a appris des règles, des ouvertures et des fins stratégiques. Bien que je n'aie jamais commencé à jouer aux échecs professionnellement, j'ai participé à certaines compétitions en Roumanie et je me suis entraîné avec une junior européenne de premier plan, une fille qui vivait dans un immeuble à quelques rues de chez moi.  

Les échecs sont une activité intellectuelle. Les hommes et les femmes peuvent dialoguer sur un pied d'égalité : les règles sont les mêmes pour les deux. Mais les meilleurs joueurs d'échecs du monde sont des hommes. 

Garry Kasparov, le maître d'échecs d'origine soviétique, a dit un jour : « Certaines personnes n'aiment pas entendre cela, mais les échecs ne conviennent pas aux femmes. C'est un combat, tu sais ? Un gros combat. Ce n'est pas pour les femmes. » 

Malgré ce point de vue, les femmes excellaient aux échecs. Prendre Véra Menchick, la première pionnière et la plus ancienne championne du monde d'échecs féminine, et judith polgar, le grand maître d'échecs hongrois que beaucoup considèrent comme la meilleure joueuse d'échecs féminine de tous les temps.

Supposons maintenant que vous conceviez un programme d'IA qui enseigne et encourage les femmes à jouer aux échecs. Certaines études ont révélé que les joueuses d'échecs sont généralement plus réticentes au risque que les hommes, mais que les meilleures joueuses d'échecs jouent de manière plus agressive. Autre études montrent que les femmes ont tendance à jouer différemment lorsqu'elles savent que l'autre adversaire est un homme. Les données pour former le programme d'IA doivent contenir une grande base de données de jeux qui ont été évalués pour leur force de stratégie. Naturellement, bon nombre de ces jeux et positions proviendraient de jeux représentatifs joués par des joueurs masculins.

Mais cela crée-t-il un biais ? Vous pourriez répondre oui, car les données sont biaisées par conception et peu de jeux joués par des femmes font partie de l'ensemble d'entraînement. Ou, vous pourriez répondre non, parce que les femmes veulent apprendre à gagner contre les hommes et les femmes. 

Quelle que soit votre opinion, la réduction des préjugés sexistes dans les données d'échecs ne conduirait pas à une amélioration de la "performance" du modèle d'IA visant à préparer les femmes à être championnes d'échecs, mais peut être importante pour créer une meilleure atmosphère afin que les jeunes filles soient moins intimidé et rester motivé pour apprendre.

Examinons maintenant un exemple à enjeux plus élevés. Supposons que vous souhaitiez former un algorithme d'IA pour effectuer une chirurgie robotique. Serait-il important que les données pour le développer proviennent principalement de chirurgiens masculins ? Ce biais serait-il indésirable ?

La réponse est complexe.

J'enseigne l'analyse et la conception d'algorithmes. Les algorithmes consistent en des séquences finies d'étapes calculables. Ces étapes s'appliquent à une entrée qui doit satisfaire certaines conditions connues, appelées "pré-conditions". La sortie d'un algorithme doit également satisfaire un ensemble de conditions, appelées "post-conditions" utilisées pour juger de la qualité d'une solution.

Personne ne cache ces conditions ou n'essaie de les supprimer. Ils doivent être connus et sont en effet nécessaires pour écrire les étapes internes des algorithmes. Leur présence aide à réduire le « bruit » (toute donnée qui est corrompue ou qui ne peut pas être interprétée correctement par des machines.) Mais ces conditions pourraient-elles également nous aider à détecter les biais ?

Les préjugés sexistes sont en effet un aspect important de l'IA. Les scénarios ci-dessus illustrent le besoin de clarté dans la définition du type de préjugés sexistes qui, s'ils sont réduits, pourraient conduire à des modèles d'IA plus précis produisant moins d'erreurs dans leurs décisions ou dans les résultats des données.

IA et genre dans notre projet GAL*

Dans le cadre de Programme Global South AI4COVIDINSPIRER LA PÊCHE a débuté en 2021 et a réuni plusieurs institutions pour analyser, comparer et harmoniser les données Covid-19 au Malawi et au Kenya. Mon rôle dans ce projet était de comprendre et d'analyser les données Covid-19 collectées au Malawi selon plusieurs dimensions, notamment sur le genre et l'intersectionnalité.

Nous voulions savoir spécifiquement si davantage d'hommes ou de femmes sont infectés et/ou meurent de Covid, et si les données de surveillance aux points d'entrée au Malawi - terrestres et aériens - comportent un biais masculin. Une étude ont montré que les hommes, plus âgés et de résidence urbaine, étaient associés à une augmentation de la morbidité et de la mortalité liées au Covid-19. Connaître ce biais pourrait être positif et améliorer le traitement et les soins pour ces groupes.  

Au plus fort de la pandémie, des mesures telles que des fermetures partielles et des fermetures d'écoles et de marchés visaient à atténuer l'impact de Covid-19 sur la population et à réduire sa propagation. En tant que data scientist, je cherchais des conditions préalables. Je voulais aussi savoir à quel genre de post-conditions on pouvait s'attendre. 

Une condition préalable était que les hommes participent généralement à de grands rassemblements tels que des rassemblements politiques, contrairement aux femmes. Un autre était que les femmes en particulier (et aussi les hommes) avaient besoin de passer plus de temps à s'occuper de leurs enfants qui étaient maintenant à la maison, et par conséquent, les femmes ont vu leurs revenus diminuer. Mais, nous avons vu plus tard que les fermetures avaient des conséquences néfastes - ou post-conditions - pour de nombreuses filles et femmes. Davantage de jeunes filles sont tombées enceintes pendant la fermeture des écoles et beaucoup ne sont jamais retournées à l'école après la levée des restrictions. Au Malawi, les femmes ont subi un harcèlement sexuel accru. De plus, les restrictions de Covid ont aggravé les vulnérabilités et les inégalités d'accès des femmes à l'emploi et au pouvoir économique, qui existaient avant la pandémie.

On peut affirmer que les décisions concernant les mesures préventives peuvent résoudre certains préjugés – parce que les hommes courent un risque plus élevé de Covid, la décision de réduire les interactions publiques est logique. Mais ces mêmes mesures peuvent exacerber d'autres biais - par exemple, la fermeture d'écoles entraîne un plus grand nombre de filles qui abandonnent l'école et d'autres résultats inattendus. Les confinements ont peut-être été efficaces pour prévenir la contagion chez les hommes, mais ils ont eu un impact négatif important sur les femmes.

Réduire les biais de l'IA et augmenter la représentativité n'est pas toujours souhaitable

Donner la même considération à toutes les possibilités est trop exigeant : le stockage des machines et la puissance de calcul sont à la fois finis et limités. Les biais aident les humains à prendre des décisions plus facilement en fournissant un point de départ, une prédiction initiale concernant le choix à faire. De même, les algorithmes d'IA utilisent généralement des "heuristiques" pour obtenir de l'intelligence. Les heuristiques sont des règles empiriques permettant à quelqu'un de découvrir ou d'apprendre quelque chose par lui-même. En IA, les heuristiques sont des règles spéciales qui permettent à un algorithme d'arriver rapidement à une solution - ce n'est peut-être pas la meilleure solution mais une solution satisfaisante. 

Pendant le COVID-19 au Malawi, les premières mesures de santé publique telles que le confinement ou l'utilisation de masques ont été adoptées en utilisant des heuristiques basées sur des expériences et des pratiques dans d'autres pays. La situation du COVID-19 et ses caractéristiques uniques et inconnues signifiaient que les dirigeants s'appuyaient principalement sur l'heuristique pour prendre des décisions et que parfois les médecins utilisaient également l'heuristique pour des traitements critiques.

Mais parfois, l'utilisation d'heuristiques produit des effets négatifs. J'ai décrit ci-dessus la situation au Malawi où, en essayant d'atténuer un type de préjugé sexiste en interdisant les grands rassemblements ou en fermant les marchés ou les écoles pour protéger les hommes, le résultat a été d'exacerber d'autres préjugés sexistes, comme les femmes perdant l'accès aux revenus et à l'éducation ou subissant des taux plus élevés de grossesse et de violence domestique, et d'aggraver encore les contraintes existantes qui s'appliquent aux populations plus vulnérables telles que les femmes, les enfants, les personnes âgées.

Leçons apprises et autres questions

Le manque de représentativité des données est une préoccupation 

Pour qu'un algorithme soit efficace, ses données d'entraînement doivent être représentatives des communautés qu'il peut impacter. Dans l'IA classique, l'heuristique joue un rôle important en fournissant aux algorithmes ces «règles empiriques» qui permettent de trouver une solution lorsque la seule autre option serait l'essai et l'erreur. À l'ère de l'apprentissage automatique et du big data, nous nous attendons à avoir suffisamment d'informations dans les données pour limiter l'utilisation de l'heuristique. Pour qu'un algorithme soit efficace, ses données d'entraînement doivent être représentatives des communautés qu'il peut impacter.

La stratification des données peut réduire les biais

Pendant le COVID-19, il était courant au départ de déclarer des nombres cumulés - ou des nombres totaux de personnes infectées sur une période de temps sans examiner les différences entre les sous-groupes, telles que le sexe, l'âge ou le lieu. Traiter tous les cas comme étant les mêmes de cette manière. a exacerbé les préjugés qu'elle produisait dans l'esprit et le comportement des gens. Plus tard, les données se sont révélées plus pertinentes lorsqu'elles ont été examinées selon des dimensions spécifiques. Cela a révélé que des groupes spécifiques de personnes, comme les diabétiques, couraient un risque plus élevé d'infection ou de complications. Par conséquent, la stratification des données est une technique importante à utiliser à la fois dans la collecte et l'analyse des données pour réduire les biais dans les données et la prise de décision. 

Plus de données ne réduit pas toujours le biais

Une augmentation importante/exponentielle des données sur la santé pourrait-elle réduire les biais et améliorer la représentativité ? En théorie, cela devrait être le cas, mais en réalité, ce n'est pas toujours vrai. Par exemple, au Malawi et au Kenya, les enquêtes téléphoniques, qui ont été fréquemment utilisées pendant le Covid-19, ont tendance à recueillir davantage les points de vue des hommes qui possèdent un téléphone plus que les femmes. La collecte de plus de données ne conduit pas toujours à une réduction du biais dans les données. 

Les data scientists ne doivent pas ignorer les différences

Le Covid-19 a révélé un plus grand besoin de rechercher les préjugés et les hypothèses qui sous-tendent l'action humaine à l'échelle mondiale, non pas en lissant les préjugés et les différences, mais en les révélant. Un tuteur d'échecs en IA serait insensible et moins intelligent s'il devait former les femmes de la même manière que les hommes sont formés. Un data scientist analysant les données de Covid-19 ne doit pas ignorer les différences qui existent, qu'on les aime ou non. 

Le big data est dynamique, il a de multiples dimensions, il regorge de covariables (variables que les chercheurs ne peuvent contrôler). Jusqu'à présent, il n'y a eu aucune percée dans les efforts visant à réduire efficacement les biais. Nous avons des méthodes efficaces pour réduire le bruit mais pas les biais. Nous devons poursuivre cette conversation. 

La puissance de l'IA réside dans l'affinement continu de ses conditions préalables en apprenant à partir des données. L'heuristique peut guider cet ajustement. Au Malawi, mon travail consiste à développer des outils d'IA qui intègrent l'«heuristique» en assemblant des connaissances et des processus de décision qui intègrent les différences culturelles de la meilleure façon possible.

Franchement, je peux sympathiser avec les systèmes d'IA. Ils ont besoin d'heuristiques, mais en même temps, ils doivent réduire les biais. Ils doivent avoir leur gâteau et le manger.

*GAL signifie Apprentissage par l'action sur le genre.


Cet article a été rédigé par Amelia Taylor, PhD, maître de conférences en IA à l'Université des affaires et des sciences appliquées du Malawi, @LinkedIn, @github, et est titulaire d'une licence en vertu d'un Licence CC BY 4.0. © 2023 Amélie Taylor.