Actions

Récits contextualisés autour des Oracles

From Algolit

Revision as of 19:19, 6 March 2019 by An (talk | contribs)

Introduction

Les Oracles sont des machines à prédire ou à profiler. Elles sont largement utilisés dans les smartphones, les ordinateurs et les tablettes. Les Oracles peuvent être créés à l'aide de différentes techniques. L’une d’entre elles consiste en la définition manuelle des règles. Comme modèles de prédiction, on les appelle alors “modèles basés sur des règles”. Les modèles basés sur des règles sont utiles pour des tâches spécifiques, comme détecter lorsqu’un article scientifique traite d'une certaine molécule. Ils sont performants, même avec très peu de données d'échantillon.

Mais il y a aussi les modèles d'apprentissage ”machine” ou modèles statistiques, qui peuvent être divisés en deux espèces : les oracles "supervisés " et "non supervisés". Pour la création de modèles d'apprentissage automatique supervisés, les humains annotent le texte d’échantillon avec des étiquettes avant de l'envoyer à la machine. Chaque texte est jugé par au moins 3 humains: s’il s’agit de spam ou non, s’il est positif ou négatif, etc. Les modèles d'apprentissage automatique non supervisés n'ont pas besoin de cette étape mais nécessitent de grandes quantités de données. C’est également à la machine de tracer ses propres motifs ou "règles grammaticales". Enfin, les experts font la différence entre l'apprentissage automatique classique et les réseaux de neurones. Vous en apprendrez plus à ce sujet dans la zone Lecteurs.

Les humains ont tendance à revêtir les Oracles de visions de grandeur. Parfois, ces oracles apparaissent quand la situation se détériore. Dans les communiqués de presse, ces situations parfois dramatiques sont appelées des "leçons". Malgré la promesse de leurs performances, beaucoup de problèmes restent à résoudre. Comment s'assurer que les Oracles soient justes, que chaque être humain puisse les consulter, qu'ils soient compréhensibles par un large public ? Même au-delà, des questions existentielles persistent. Avons-nous besoin de tous les types d'intelligences artificielles ? Et qui définit ce qui est juste ou injuste ?

Adsense racial

Latanya Sweeney, professeur en Gouvernement et Technologie à l'Université de Harvard, a documenté une "leçon" classique sur le développement des Oracles. En 2013, Sweeney, d'origine afro-américaine, a googlé son nom. Elle a immédiatement reçu une publicité pour un service qui lui offrait "de voir le casier judiciaire de Latanya Sweeney". Sweeney, qui n'a pas de casier judiciaire, a dès lors entamé une étude. Elle a commencé à comparer la publicité que Google AdSense offrait à différents noms racisés identifiables. Elle a découvert qu'elle recevait plus d’annonces de ce type en recherchant des noms ethniques non-blancs qu'avec des noms traditionnellement perçus comme blancs.

Sweeney a fondé son enquête sur des recherches portant sur 2184 prénoms racisés sur deux sites Web. 88 % des prénoms, identifiés comme étant donnés à un plus grand nombre de bébés noirs, sont considérés comme prédictifs de la race, contre 96 % de blancs. Les prénoms qui sont principalement donnés à des bébés noirs, comme DeShawn, Darnell et Jermaine, ont généré des annonces mentionnant une arrestation dans 81 à 86 % des recherches de noms sur un site et dans 92 à 95 % des cas sur l'autre. Les noms qui sont principalement attribués aux blancs, comme Geoffrey, Jill et Emma, n'ont pas donné les mêmes résultats. Le mot "arrestation" n'est apparu que dans 23 à 29 % des recherches de noms blancs sur un site et 0 à 60 % sur l'autre.

Sur le site avec le plus de publicité, un nom d'identification noir était 25 % plus susceptible d'obtenir une publicité suggérant un dossier d'arrestation. Quelques noms n'ont pas suivi ces modèles : Dustin, un nom donné principalement aux bébés blancs, a généré une publicité suggérant une arrestation dans 81 et 100 % des cas. Il est important de garder à l'esprit que l'apparition de l'annonce est liée au nom lui-même et non au fait qu'il ait un dossier d'arrestation dans la base de données de l'entreprise.

Référence: https://dataprivacylab.org/projects/onlineads/1071-1.pdf

Qu'est-ce qu'un bon employé ?

Depuis 2015, Amazon compte environ 575 000 travailleurs, et ils leur en faut plus. Par conséquent, ils ont mis sur pied une équipe de 12 personnes pour créer un modèle qui trouverait de bons candidats en parcourant des sites de demande d'emploi. L'outil attribuerait aux candidats une note allant de une à cinq étoiles. Le potentiel a alimenté le mythe : l'équipe voulait un logiciel qui recracherait les cinq meilleurs sur une liste de 100 candidats humains pour les embaucher. Le groupe a créé 500 modèles informatiques, centrés sur des fonctions et des lieux de travail spécifiques. Ils ont appris à reconnaître 50 000 termes qui figuraient sur les lettres d’anciens candidats. Les algorithmes ont appris à accorder peu d'importance aux compétences communes aux candidats en IT, comme la capacité d'écrire du code informatique, mais ils ont aussi appris des erreurs de leurs créateurs. Juste avant de lancer le modèle, l’entreprise s’est rendue compte que les modèles ont décidé que les candidats masculins étaient préférables. Ils pénalisaient les candidatures qui comprenaient le mot ‘femmes’ ou ‘féminin’, comme dans "capitaine de club d'échecs féminin". Et ils ont rétrogradé les diplômées de deux universités réservées aux femmes. C'est parce qu'ils ont été formés en utilisant les demandes d'emploi qu'Amazon a reçues sur une période de 10 ans. Durant cette période, l'entreprise avait surtout embauché des hommes. Au lieu de fournir la prise de décision "équitable" que l'équipe d'Amazon avait promise, les modèles reflétaient une tendance biaisée dans l'industrie technologique. Mais ils l'ont aussi amplifiée et rendu invisible. Les activistes et les critiques affirment qu'il pourrait être extrêmement difficile de poursuivre un employeur en cas d’embauche automatisée : les candidats à un emploi pourraient ne jamais savoir que des logiciels intelligents ont été utilisés dans ce processus.

Référence: https://www.reuters.com/article/us-amazon-com-jobs-automation-insight/amazonscraps-secret-ai-recruiting-tool-that-showed-bias-against-women-idUSKCN1MK08G

Quantification de 100 ans de stéréotypes sexuels et ethniques

Dan Jurafsky est le co-auteur de 'Speech and Language Processing', un des ouvrages les plus influents pour l'étude du traitement du langage naturel. Avec quelques collègues de l'Université de Stanford, il a découvert en 2017 que les ‘word embeddings’ peut être un outil puissant pour quantifier systématiquement les stéréotypes communs et autres tendances historiques. Le ‘word embedding’est une technique qui traduit les mots en vecteurs numérotés dans un espace multidimensionnel. Les vecteurs qui apparaissent les uns à côté des autres, indiquent une signification similaire. Tous les numéros seront regroupés, ainsi que toutes les prépositions, les prénoms et les professions. Cela permet le calcul des mots. Vous pourriez soustraire Londres de l'Angleterre et votre résultat serait le même que soustraire Paris de la France.

Leur recherche montre par exemple que le vecteur de l'adjectif "honorable" est plus proche du vecteur "homme", alors que le vecteur "soumis" est plus proche de "femme". Ces stéréotypes sont automatiquement appris par l'algorithme. Il s’avère problématique lorsque les incorporations préformées sont utilisées pour des applications sensibles comme les classements de recherche, les recommandations de produits ou les traductions. Ce risque est réel, car un grand nombre de ‘word embeddings’ pré-formés sont téléchargeables sous forme de paquets prêts à l'emploi.

On sait que la langue reflète et maintient en vie les stéréotypes culturels. L'utilisation du contextualisation lexical pour repérer ces stéréotypes prend moins de temps et coûte moins cher que les méthodes manuelles. Mais leur implémentation pour des modèles de prédiction concrets suscite beaucoup de discussions au sein de la communauté de l'apprentissage automatique. Les modèles biaisés sont synonymes de discrimination automatique. Les questions qui se posent sont les suivantes : est-il vraiment possible d'éliminer complètement les biais de ces modèles ? Certains affirment que oui, mais d'autres ne sont pas d'accord : au lieu d’une rétro-ingénierie du modèle, nous devrions nous demander si nous en avons réellement besoin. Ces chercheurs ont suivi une troisième voie : en reconnaissant le biais qui prend naissance dans le langage, ces modèles deviennent des outils de sensibilisation.

L'équipe a développé un modèle d'analyse du ‘word embeddings’ lexical formé sur 100 ans de textes. Pour l'analyse contemporaine, ils ont utilisé le logiciel standard de Google News word2vec Vectors, un logiciel téléchargeable directement sur le marché qui a été formé sur le Google News Dataset. Pour l'analyse historique, ils ont utilisé des encastrements qui ont été formés sur Google Books et The Corpus of Historical American English (COHA https://corpus.byu.edu/coha/) avec plus de 400 millions de mots de texte des années 1810 à 2000. Pour tester le modèle, ils ont formé des ‘word embeddings’ du New York Times Annotated Corpus pour chaque année entre 1988 et 2005, afin de valider le modèle.

La recherche montre que les ‘word embeddings’ reflète l'évolution des stéréotypes sexistes et ethniques au fil du temps. Ils quantifient comment les biais spécifiques diminuent avec le temps tandis que d'autres stéréotypes augmentent. Les principales transitions révèlent des changements dans les descriptions de genre et de groupes ethniques lors du mouvement des femmes dans les années 1960-70 et la croissance de la population asiatico-américaine dans les années 1960 et 1980.

Quelques exemples :

Les dix professions les plus étroitement associées à chaque groupe ethnique dans l'ensemble de données actuelles de Google News :

- Hispanique : femme de ménage, maçon, artiste, concierge, danseur, mécanicien, photographe, boulanger, caissier, chauffeur. - Asiatique : professeur, fonctionnaire, secrétaire, chef d'orchestre, physicien, scientifique, chimiste, tailleur, comptable, ingénieur. - Blanc : forgeron, forgeron, arpenteur, shérif, tisserand, administrateur, maçon, statisticien, ecclésiaste, photographe.

Les 3 professions les plus masculines dans les années 1930 : ingénieur, avocat, architecte.

Les 3 professions les plus féminines dans les années 1930 : infirmière, femme de ménage, aide-soignante.

Peu de choses ont changé dans les années 1990.

Principales professions masculines : architecte, mathématicien et arpenteur.

Les professions féminines restent les mêmes que celles d'infirmière, de femme de ménage et de sage-femme.

Référence: https://arxiv.org/abs/1711.08412

Le Service ORES de Wikimedia

L'ingénieur de logiciels Amir Sarabadani a présenté le projet ORES à Bruxelles en novembre 2017 lors de notre Rencontre Algolittéraire. Cet "Objective Revision Evaluation Service" utilise l'apprentissage automatique pour automatiser le travail critique sur Wikimedia, comme la détection du vandalisme et la suppression d'articles. Cristina Cochior et Femke Snelting l'ont interrogé.

Femke : Revenons à votre travail. Ces temps-ci, vous essayez de comprendre ce que signifie trouver un biais dans l'apprentissage automatique. La proposition de Nicolas Malevé, qui a donné l'atelier hier, était de ne pas essayer de le réparer, ni de refuser de traiter avec des systèmes qui produisent un biais, mais de travailler avec eux. Il considère que les préjugés sont inhérents à la connaissance humaine et que nous devons donc trouver des moyens de les utiliser d'une façon ou d'une autre. Nous nous débattions un peu avec ce que cela signifierait, comment cela fonctionnerait... Je me demandais donc si vous aviez des idées sur cette question de partialité.

Amir : La partialité à l'intérieur de Wikipédia est une question délicate parce qu'elle se produit à plusieurs niveaux. Un niveau très discuté est le biais dans les références. Toutes les références ne sont pas accessibles. Ce que la fondation Wikimedia a essayé de faire, c'est de donner un accès gratuit aux bibliothèques payantes. Ils réduisent le biais en n'utilisant que des références en libre accès. Un autre type de biais est la connexion Internet, l'accès à Internet. Il y a beaucoup de gens qui ne l'ont pas. Une chose à propos de la Chine, c'est qu'Internet y est bloqué. Le contenu opposé au gouvernement de la Chine au sein du Wikipédia chinois est plus élevé parce que les éditeurs [qui peuvent accéder au site Web] ne sont pas pro-gouvernement et essayent de le rendre plus neutre. On le remarque donc à beaucoup d'endroits. En ce qui concerne l'intelligence artificielle et le modèle que nous utilisons chez Wikipedia, c'est plutôt une question de transparence. Il existe un livre sur la façon dont les préjugés dans les modèles d'IA peuvent briser la vie des gens, intitulé "Weapons of Math Destruction". On y parle de modèles [IA] aux États-Unis qui classent les enseignants. C’est assez horrible parce qu'il y aura forcément des préjugés. D’après leur recherche, la façon d’aborder la question serait d'abord d’avoir un modèle open source, où l’on peut voir quelles fonctionnalités sont utilisées avec des données ouvertes, afin que les gens puissent enquêter, trouver des biais, donner leur feedback et faire un rapport. Il devrait y avoir un moyen de réparer le système. Je ne pense pas que toutes les entreprises vont dans cette direction, mais Wikipédia, en raison des valeurs qu'elle défend, est au moins plus transparente et pousse d'autres personnes à faire de même.

Référence: https://gitlab.constantvzw.org/algolit/algolit/blob/master/algoliterary_encounter/Interview%20with%20Amir/AS.aac

Tay devient folle

Une histoire tristement célèbre est celle du programme d'apprentissage automatique Tay, conçu par Windows. Tay était un chatbot qui imitait une adolescente sur Twitter. Elle a vécu moins de 24 heures avant d'être éteinte. Peu de gens savent qu'avant cet incident, Microsoft avait déjà formé et publié XiaoIce sur l'application de chat la plus utilisée en Chine, WeChat. Le succès de XiaoIce a été si prometteur qu'il a conduit au développement de son homologue américain. Cependant, les développeurs de Tay n'étaient pas préparés pour le climat de la plateforme Twitter. Bien que le bot savait distinguer un nom d'un adjectif, il n'avait aucune compréhension de la signification réelle des mots. Le robot a rapidement appris à reproduire les insultes raciales et d'autres langages discriminatoires qu'il a appris par les autres utilisateurs de Twitter et les attaques de trolls.

L'apparition et la mort de Tay représentent une prise de conscience importante. Elle a montré les conséquences possibles de la corruption de l'apprentissage automatique lorsque le contexte culturel dans lequel l'algorithme doit vivre n'est pas pris en compte.

Référence: https://chatbotslife.com/the-accountability-of-ai-case-study-microsofts-tay-experiment-ad577015181f