Actions

Récits contextualisés autour des Nettoyeurs: Difference between revisions

From Algolit

(Une panique robotique chez Amazon Mechanical Turk)
 
(15 intermediate revisions by 2 users not shown)
Line 1: Line 1:
 
== Projet Gutenberg et Distributed Proofreaders ==
 
== Projet Gutenberg et Distributed Proofreaders ==
Le projet Gutenberg est notre grotte d'Ali Baba. Il offre plus de 58 000 livres électroniques gratuits à télécharger ou à lire en ligne. Les œuvres sont acceptées sur Gutenberg lorsque leur droit d'auteur américain a expiré. Des milliers de bénévoles numérisent et relisent des livres pour aider le projet. Une partie essentielle du travail est réalisée dans le cadre du projet Distributed Proofreaders. Il s'agit d'une interface Web pour aider à convertir les livres du domaine public en livres électroniques. Pensez aux fichiers texte, aux e-pubs, aux formats Kindle. En divisant la charge de travail en pages individuelles, de nombreux bénévoles peuvent travailler sur un livre en même temps, ce qui accélère le processus de nettoyage.  
+
[http://www.gutenberg.org/ Le projet Gutenberg] est notre grotte d'Ali Baba. Il offre plus de 58 000 livres électroniques gratuits à télécharger ou à lire en ligne. Les œuvres sont acceptées sur Gutenberg lorsque leur droit d'auteur américain a expiré. Des milliers de bénévoles numérisent et relisent des livres pour aider le projet. Une partie essentielle du travail est réalisée dans le cadre du projet [https://www.pgdp.net/c/ Distributed Proofreaders]. Il s'agit d'une interface Web pour aider à convertir les livres du domaine public en livres électroniques. Pensez aux fichiers texte, aux e-pubs, aux formats Kindle. En divisant la charge de travail en pages individuelles, de nombreux bénévoles peuvent travailler sur un livre en même temps, ce qui accélère le processus de nettoyage.  
  
Pendant la relecture, les volontaires reçoivent une image numérisée de la page et une version du texte, qui est lue par un algorithme de reconnaissance optique des caractères (OCR) formé pour reconnaître les lettres dans les images. Cela permet de comparer facilement le texte à l'image, de le relire et de le renvoyer sur le site. Un deuxième volontaire se voit ensuite présenter le travail du premier volontaire. Il vérifie et corrige le travail si nécessaire, et le soumet au site. Le livre passe ensuite par un troisième cycle de relecture et deux autres cycles de mise en page à l'aide de la même interface Web. Une fois que toutes les pages ont terminé ces étapes, un post-processeur les assemble soigneusement dans un e-book et les soumet à l'archive du Projet Gutenberg.
+
Pendant la relecture, les bénévoles reçoivent une image scannée de la page et une version du texte, lue par un algorithme de reconnaissance optique des caractères (OCR) entraîné pour reconnaître les lettres dans les scans. Cela permet de comparer facilement le texte à l'image, de le relire, de le corriger et de le renvoyer sur le site. Un deuxième bénévole se voit ensuite présenter le travail du premier. Il vérifie et corrige le travail si nécessaire, et le soumet au site. Le livre passe ensuite par un troisième cycle de relecture et deux autres cycles de mise en page à l'aide de la même interface Web. Une fois que toutes les pages ont terminé ces étapes, un post-processeur les assemble soigneusement dans un e-book et les soumet à l'archive du [http://www.gutenberg.org/ Projet Gutenberg].
  
Nous avons collaboré avec le Distributed Proofreaders Project pour nettoyer les fichiers numérisés que nous avons reçus de la collection du Mundaneum. De novembre 2018 jusqu'à la première mise en ligne du livre "L'Afrique aux Noirs" en février 2019, An Mertens a échangé environ 50 courriels avec Linda Hamilton, Sharon Joiner et Susan Hanlon, toutes bénévoles du Distributed Proofreaders Project. La conversation complète est publiée dans le catalogue. Cela pourrait vous inspirer à partager des livres non disponibles en ligne.
+
Nous avons collaboré avec le Distributed Proofreaders Project pour nettoyer les fichiers numérisés que nous avons reçus de la collection du Mundaneum. De novembre 2018 jusqu'à la première mise en ligne du livre [http://www.gutenberg.org/ebooks/58828 'L'Afrique aux Noirs'] en février 2019, An Mertens a échangé environ 50 courriels avec Linda Hamilton, Sharon Joiner et Susan Hanlon, toutes bénévoles du Distributed Proofreaders Project. La conversation complète est publiée [[Full_email_conversation|ici]]. Cela pourrait vous inspirer à partager des livres non disponibles en ligne.
  
 
== Une version algolittéraire du Manifeste sur l’entretien ==  
 
== Une version algolittéraire du Manifeste sur l’entretien ==  
En 1969, un an après la naissance de son premier enfant, l'artiste new-yorkaise Mierle Laderman Ukeles a écrit un Manifeste pour l'entretien. Le Manifeste d'Ukeles appelle à une réévaluation de l'état des travaux d'entretien dans l'espace privé, domestique et public. Ce qui suit est une version modifiée de son texte inspirée par le travail des Nettoyeurs.
+
En 1969, un an après la naissance de son premier enfant, l'artiste new-yorkaise [https://fr.wikipedia.org/wiki/Mierle_Laderman_Ukeles Mierle Laderman Ukeles] a écrit un '[https://www.arnolfini.org.uk/blog/manifesto-for-maintenance-art-1969 Manifesto for Maintenance]' (Manifeste pour l'entretien). Le Manifeste d'Ukeles appelle à une réévaluation de l'état des travaux d'entretien dans l'espace privé, domestique et public. Ce qui suit est une version modifiée de son texte inspirée par le travail des Nettoyeurs.
 +
 
 +
 
  
 
IDÉES
 
IDÉES
 +
  
 
A. L'instinct de Mort et l'instinct de Vie :  
 
A. L'instinct de Mort et l'instinct de Vie :  
Line 17: Line 20:
 
L'Instinct de Vie : l'unification ; le retour éternel ; la perpétuation et l'ENTRETIEN de la matière ; les systèmes et opérations de survie ; l'équilibre.  
 
L'Instinct de Vie : l'unification ; le retour éternel ; la perpétuation et l'ENTRETIEN de la matière ; les systèmes et opérations de survie ; l'équilibre.  
  
B. Deux systèmes de base : Développement et entretien. La boule de cristal de chaque révolution : après la révolution, qui va essayer de repérer le taux de discrimination dans la production ?
+
 
 +
B. Deux systèmes de base :  
 +
 
 +
Développement et entretien. La boule de cristal de chaque révolution : après la révolution, qui va essayer de repérer le taux de discrimination dans la production ?
  
 
Développement : pure création individuelle ; le nouveau ; le changement ; le progrès ; l'avancée ; l'excitation ; la fuite ou s'enfuir.
 
Développement : pure création individuelle ; le nouveau ; le changement ; le progrès ; l'avancée ; l'excitation ; la fuite ou s'enfuir.
Line 26: Line 32:
  
 
Les systèmes d'entretien sont des systèmes à rétroaction directe avec peu de possibilités de modification.  
 
Les systèmes d'entretien sont des systèmes à rétroaction directe avec peu de possibilités de modification.  
 +
  
 
C. L'entretien est une corvée, ça prend tout le temps.  
 
C. L'entretien est une corvée, ça prend tout le temps.  
Line 33: Line 40:
 
La culture attribue un statut médiocre aux emplois d'entretien = salaire minimum, les Mechanical Turks d'Amazon = pratiquement aucun salaire.  
 
La culture attribue un statut médiocre aux emplois d'entretien = salaire minimum, les Mechanical Turks d'Amazon = pratiquement aucun salaire.  
  
nettoyer le set, marquer les données d'entraînement, corriger les fautes de frappe,
+
Nettoyer le set, marquer les données d'entraînement, corriger les fautes de frappe, modifier les paramètres, terminer le rapport, satisfaire le demandeur, télécharger la nouvelle version, joindre les mots qui ont été mal reconnus par le logiciel de Reconnaissance Optique de Caractères, accomplir ces tâches d'intelligence humaine, essayez de deviner la signification du formatage du demandeur, vous devez accepter le 'hit' avant de pouvoir soumettre les résultats, résumer l'image, ajouter la case de délimitation, quelle est la similitude sémantique de ce texte, vérifiez la qualité de la traduction, collecter vos micro-paiements, devenir un Mechanical Turk à succès.
 
 
modifier les paramètres, terminer le rapport, satisfaire le demandeur,
 
 
 
télécharger la nouvelle version, joindre les mots qui ont été mal reconnus  
 
 
 
par le logiciel de Reconnaissance Optique de Caractères, accomplir ces tâches d'intelligence humaine,
 
 
 
essayez de deviner la signification du formatage du demandeur,
 
 
 
vous devez accepter le 'hit' avant de pouvoir soumettre les résultats,
 
 
 
résumer l'image, ajouter la case de délimitation,  
 
 
 
quelle est la similitude sémantique de ce texte, vérifiez la qualité de la traduction,
 
 
 
collecter vos micro-paiements, devenir un Mechanical Turk à succès.
 
  
Référence: https://www.arnolfini.org.uk/blog/manifesto-for-maintenance-art-1969
+
Référence : https://www.arnolfini.org.uk/blog/manifesto-for-maintenance-art-1969
  
 
== Une panique robotique chez le Mechanical Turk d'Amazon ==
 
== Une panique robotique chez le Mechanical Turk d'Amazon ==
  
Le Mechanical Turk d'Amazon prend le nom d'un automate d'échecs du 18ème siècle. En fait, le Turk n'était pas du tout une machine. C'était une illusion mécanique qui permettait à un maître d'échecs humain de se cacher à l'intérieur de la boîte et de l'utiliser manuellement.  
+
[https://requester.mturk.com/create/projects/new Le Mechanical Turk d'Amazon] prend le nom d'un automate d'échecs du 18ème siècle. En fait, le [https://fr.wikipedia.org/wiki/Turc_m%C3%A9canique Turc mécanique] n'était pas du tout une machine. C'était une illusion mécanique qui permettait à un maître d'échecs humain de se cacher à l'intérieur de la boîte et de l'utiliser manuellement.  
  
Pendant près de 84 ans, le Turk a remporté la plupart des matchs joués lors de ses manifestations en Europe et en Amérique. Napoléon Bonaparte se serait lui aussi laissé berner par cette ruse.
+
Pendant près de 84 ans, le Turc a remporté la plupart des matchs joués lors de ses manifestations en Europe et en Amérique. Napoléon Bonaparte se serait lui aussi laissé berner par cette ruse.
  
Le Mechanical Turk d’Amazon est une plateforme en ligne à destination des humains pour exécuter des tâches que les algorithmes ne parviennent pas à faire. Il peut s'agir, par exemple, d'annoter des phrases comme étant positives ou négatives, de repérer des plaques minéralogiques, de reconnaître des visages. Les postes affichés sur cette plateforme sont souvent rémunérés moins d'un centime par tâche. Les tâches plus complexes ou nécessitant plus de connaissances peuvent être payées jusqu'à plusieurs centimes. Pour gagner leur vie, les turkers doivent accomplir le plus de tâches possible le plus rapidement possible, ce qui entraîne d’inévitables erreurs. Les créateurs des jeux de données doivent incorporer des contrôles de qualité lorsqu'ils publient un travail sur la plate-forme. Ils doivent vérifier si le Turker a réellement la capacité d'accomplir la tâche, et ils doivent également vérifier les résultats. De nombreux chercheurs universitaires utilisent le Mechanical Turk pour des tâches qui auraient été exécutées par des étudiants auparavant.
+
Le Mechanical Turk d’Amazon est une plateforme en ligne à destination des humains pour exécuter des tâches que les algorithmes ne parviennent pas à faire. Il peut s'agir, par exemple, d'annoter des phrases comme étant positives ou négatives, de repérer des plaques d'immatriculation, de reconnaître des visages. Les postes affichés sur cette plateforme sont souvent rémunérés moins d'un centime par tâche. Les tâches les plus complexes ou nécessitant le plus de connaissances peuvent être payées jusqu'à plusieurs centimes. Pour gagner leur vie, les 'turkers' doivent accomplir le plus de tâches possible le plus rapidement possible, ce qui entraîne d’inévitables erreurs. Les créateurs des jeux de données doivent incorporer des contrôles de qualité lorsqu'ils publient un travail sur la plate-forme. Ils doivent vérifier si le 'turker' a réellement la capacité d'accomplir la tâche, et ils doivent également vérifier les résultats. De nombreux chercheurs universitaires utilisent le Mechanical Turk pour des tâches qui auraient été exécutées par des étudiants auparavant.
  
En août de l'année dernière, Max Hui Bai, un étudiant en psychologie de l'Université du Minnesota, a découvert que les enquêtes qu'il a menées avec Mechanical Turk étaient pleines de réponses absurdes aux questions ouvertes. Il a retracé les mauvaises réponses et a découvert qu'elles avaient été soumises par des répondants ayant des coordonnées GPS en double. Cela a suscité des soupçons. Bien qu'Amazon interdise explicitement aux robots d'effectuer des travaux sur Mechanical Turk, l'entreprise ne publie pas les problèmes qu'ils causent sur sa plate-forme. Les forums pour Turkers sont pleins de conversations sur l'automatisation du travail, le partage de pratiques sur la façon de créer des robots pour transgresser les termes d'Amazon. Vous pouvez également trouver des vidéos sur YouTube montrant aux Turkers comment écrire un bot pour remplir des réponses pour vous.  
+
En août de l'année dernière, [https://www.maxhuibai.com/ Max Hui Bai], un étudiant en psychologie de l'Université du Minnesota, a découvert que les enquêtes qu'il a menées avec Mechanical Turk étaient pleines de réponses absurdes aux questions ouvertes. Il a retracé les mauvaises réponses et a découvert qu'elles avaient été soumises par des répondants ayant des coordonnées GPS en double. Cela a suscité des soupçons. Bien qu'Amazon interdise explicitement aux robots d'effectuer des travaux sur Mechanical Turk, l'entreprise ne publie pas les problèmes qu'ils causent sur sa plate-forme. Les forums pour 'turkers' sont pleins de conversations sur l'automatisation du travail, le partage de pratiques sur la façon de créer des robots qui transgresseraient les termes d'Amazon. Vous pouvez également trouver des vidéos sur YouTube montrant aux 'turkers' comment écrire un bot qui remplit des réponses pour vous.  
  
Kristy Milland, une militante de Mechanical Turk, dit : "Les travailleurs sur Mechanical Turk ont été très, très mal traités pendant 12 ans et, d'une certaine façon, je vois cela comme un point de résistance. Si nous étions payés équitablement sur la plateforme, personne ne prendrait le risque de perdre son compte de cette façon."
+
Kristy Milland, une militante de Mechanical Turk, dit : 'Les travailleurs sur Mechanical Turk ont été très, très mal traités pendant 12 ans et, d'une certaine façon, je vois cela comme un point de résistance. Si nous étions payés équitablement sur la plateforme, personne ne prendrait le risque de perdre son compte de cette façon.'
  
Bai a créé un questionnaire pour les chercheurs en dehors de Mechanical Turk. Il dirige actuellement une recherche parmi les spécialistes des sciences sociales pour déterminer la quantité de données erronées utilisées, l'ampleur du problème et les moyens de l'enrayer. Mais il est impossible à l'heure actuelle d'estimer combien de jeux de données sont devenus peu fiables.
+
Bai a créé un questionnaire pour les chercheurs en dehors de Mechanical Turk. Il dirige actuellement une recherche parmi les spécialistes des sciences sociales pour déterminer la quantité de données erronées utilisées, l'ampleur du problème et les moyens de l'enrayer. Mais il est impossible à l'heure actuelle d'estimer combien de jeux de données sont devenus peu fiables de cette façon-ci.
  
Références:
+
Références :
  
 
https://www.wired.com/story/amazon-mechanical-turk-bot-panic/
 
https://www.wired.com/story/amazon-mechanical-turk-bot-panic/

Latest revision as of 21:18, 23 March 2019

Projet Gutenberg et Distributed Proofreaders

Le projet Gutenberg est notre grotte d'Ali Baba. Il offre plus de 58 000 livres électroniques gratuits à télécharger ou à lire en ligne. Les œuvres sont acceptées sur Gutenberg lorsque leur droit d'auteur américain a expiré. Des milliers de bénévoles numérisent et relisent des livres pour aider le projet. Une partie essentielle du travail est réalisée dans le cadre du projet Distributed Proofreaders. Il s'agit d'une interface Web pour aider à convertir les livres du domaine public en livres électroniques. Pensez aux fichiers texte, aux e-pubs, aux formats Kindle. En divisant la charge de travail en pages individuelles, de nombreux bénévoles peuvent travailler sur un livre en même temps, ce qui accélère le processus de nettoyage.

Pendant la relecture, les bénévoles reçoivent une image scannée de la page et une version du texte, lue par un algorithme de reconnaissance optique des caractères (OCR) entraîné pour reconnaître les lettres dans les scans. Cela permet de comparer facilement le texte à l'image, de le relire, de le corriger et de le renvoyer sur le site. Un deuxième bénévole se voit ensuite présenter le travail du premier. Il vérifie et corrige le travail si nécessaire, et le soumet au site. Le livre passe ensuite par un troisième cycle de relecture et deux autres cycles de mise en page à l'aide de la même interface Web. Une fois que toutes les pages ont terminé ces étapes, un post-processeur les assemble soigneusement dans un e-book et les soumet à l'archive du Projet Gutenberg.

Nous avons collaboré avec le Distributed Proofreaders Project pour nettoyer les fichiers numérisés que nous avons reçus de la collection du Mundaneum. De novembre 2018 jusqu'à la première mise en ligne du livre 'L'Afrique aux Noirs' en février 2019, An Mertens a échangé environ 50 courriels avec Linda Hamilton, Sharon Joiner et Susan Hanlon, toutes bénévoles du Distributed Proofreaders Project. La conversation complète est publiée ici. Cela pourrait vous inspirer à partager des livres non disponibles en ligne.

Une version algolittéraire du Manifeste sur l’entretien

En 1969, un an après la naissance de son premier enfant, l'artiste new-yorkaise Mierle Laderman Ukeles a écrit un 'Manifesto for Maintenance' (Manifeste pour l'entretien). Le Manifeste d'Ukeles appelle à une réévaluation de l'état des travaux d'entretien dans l'espace privé, domestique et public. Ce qui suit est une version modifiée de son texte inspirée par le travail des Nettoyeurs.


IDÉES


A. L'instinct de Mort et l'instinct de Vie :

L'Instinct de Mort : séparation ; catégorisation ; avant-garde par excellence ; suivre le chemin prédit vers la mort - exécuter son propre code ; changement dynamique.

L'Instinct de Vie : l'unification ; le retour éternel ; la perpétuation et l'ENTRETIEN de la matière ; les systèmes et opérations de survie ; l'équilibre.


B. Deux systèmes de base :

Développement et entretien. La boule de cristal de chaque révolution : après la révolution, qui va essayer de repérer le taux de discrimination dans la production ?

Développement : pure création individuelle ; le nouveau ; le changement ; le progrès ; l'avancée ; l'excitation ; la fuite ou s'enfuir.

Entretien : garder la poussière de la création individuelle pure ; préserver le nouveau ; soutenir le changement ; protéger le progrès ; défendre et prolonger l'avancée ; renouveler l'excitation ; répéter le vol ; montrez votre travail/remontrez-le ; gardez le dépôt git mis à jour ; gardez l'analyse des données révélatrice.

Les systèmes de développement sont des systèmes de rétroaction partielle avec une grande marge de changement.

Les systèmes d'entretien sont des systèmes à rétroaction directe avec peu de possibilités de modification.


C. L'entretien est une corvée, ça prend tout le temps.

L'esprit est éblouissant et s'irrite devant l'ennui.

La culture attribue un statut médiocre aux emplois d'entretien = salaire minimum, les Mechanical Turks d'Amazon = pratiquement aucun salaire.

Nettoyer le set, marquer les données d'entraînement, corriger les fautes de frappe, modifier les paramètres, terminer le rapport, satisfaire le demandeur, télécharger la nouvelle version, joindre les mots qui ont été mal reconnus par le logiciel de Reconnaissance Optique de Caractères, accomplir ces tâches d'intelligence humaine, essayez de deviner la signification du formatage du demandeur, vous devez accepter le 'hit' avant de pouvoir soumettre les résultats, résumer l'image, ajouter la case de délimitation, quelle est la similitude sémantique de ce texte, vérifiez la qualité de la traduction, collecter vos micro-paiements, devenir un Mechanical Turk à succès.

Référence : https://www.arnolfini.org.uk/blog/manifesto-for-maintenance-art-1969

Une panique robotique chez le Mechanical Turk d'Amazon

Le Mechanical Turk d'Amazon prend le nom d'un automate d'échecs du 18ème siècle. En fait, le Turc mécanique n'était pas du tout une machine. C'était une illusion mécanique qui permettait à un maître d'échecs humain de se cacher à l'intérieur de la boîte et de l'utiliser manuellement.

Pendant près de 84 ans, le Turc a remporté la plupart des matchs joués lors de ses manifestations en Europe et en Amérique. Napoléon Bonaparte se serait lui aussi laissé berner par cette ruse.

Le Mechanical Turk d’Amazon est une plateforme en ligne à destination des humains pour exécuter des tâches que les algorithmes ne parviennent pas à faire. Il peut s'agir, par exemple, d'annoter des phrases comme étant positives ou négatives, de repérer des plaques d'immatriculation, de reconnaître des visages. Les postes affichés sur cette plateforme sont souvent rémunérés moins d'un centime par tâche. Les tâches les plus complexes ou nécessitant le plus de connaissances peuvent être payées jusqu'à plusieurs centimes. Pour gagner leur vie, les 'turkers' doivent accomplir le plus de tâches possible le plus rapidement possible, ce qui entraîne d’inévitables erreurs. Les créateurs des jeux de données doivent incorporer des contrôles de qualité lorsqu'ils publient un travail sur la plate-forme. Ils doivent vérifier si le 'turker' a réellement la capacité d'accomplir la tâche, et ils doivent également vérifier les résultats. De nombreux chercheurs universitaires utilisent le Mechanical Turk pour des tâches qui auraient été exécutées par des étudiants auparavant.

En août de l'année dernière, Max Hui Bai, un étudiant en psychologie de l'Université du Minnesota, a découvert que les enquêtes qu'il a menées avec Mechanical Turk étaient pleines de réponses absurdes aux questions ouvertes. Il a retracé les mauvaises réponses et a découvert qu'elles avaient été soumises par des répondants ayant des coordonnées GPS en double. Cela a suscité des soupçons. Bien qu'Amazon interdise explicitement aux robots d'effectuer des travaux sur Mechanical Turk, l'entreprise ne publie pas les problèmes qu'ils causent sur sa plate-forme. Les forums pour 'turkers' sont pleins de conversations sur l'automatisation du travail, le partage de pratiques sur la façon de créer des robots qui transgresseraient les termes d'Amazon. Vous pouvez également trouver des vidéos sur YouTube montrant aux 'turkers' comment écrire un bot qui remplit des réponses pour vous.

Kristy Milland, une militante de Mechanical Turk, dit : 'Les travailleurs sur Mechanical Turk ont été très, très mal traités pendant 12 ans et, d'une certaine façon, je vois cela comme un point de résistance. Si nous étions payés équitablement sur la plateforme, personne ne prendrait le risque de perdre son compte de cette façon.'

Bai a créé un questionnaire pour les chercheurs en dehors de Mechanical Turk. Il dirige actuellement une recherche parmi les spécialistes des sciences sociales pour déterminer la quantité de données erronées utilisées, l'ampleur du problème et les moyens de l'enrayer. Mais il est impossible à l'heure actuelle d'estimer combien de jeux de données sont devenus peu fiables de cette façon-ci.

Références :

https://www.wired.com/story/amazon-mechanical-turk-bot-panic/

https://www.maxhuibai.com/blog/evidence-that-responses-from-repeating-gps-are-random

http://timryan.web.unc.edu/2018/08/12/data-contamination-on-mturk/