Actions

Une ethnographie des jeux de données: Difference between revisions

From Algolit

 
(10 intermediate revisions by 2 users not shown)
Line 1: Line 1:
 
par Algolit
 
par Algolit
  
Un élément qui semble négligé dans le transfert de biais du niveau sociétal vers la machine est le jeu de données comme étape intermédiaire dans la prise de décision : les paramètres par lesquels un environnement social est cloisonné sont déterminés par divers facteurs. Dans la création des jeux de données, qui constituent la base sur laquelle les modèles informatiques fonctionnent, les conflits et les ambiguïtés sont négligés au profit d'une réalité calculable. La collecte de données est politique, mais sa politique est rendue invisible dans la manière dont elle est présentée et visualisée. Les jeux de données ne sont pas une version distillée de la réalité, ni simplement une technologie en soi. Mais comme toute technologie, les jeux de données encodent leur but, leur finalité et la vision du monde de leurs fabricants.
+
Lors des réunions mensuelles Algolit nous cherchons ou créons souvent des jeux de données. Parfois, nous utilisons des corpus déjà existants, disponibles via le site Natural Language Toolkit [http://www.nltk.org/ nltk]. NLTK contient, entre autres, la Déclaration universelle des droits de l'Homme, les discours inauguraux des présidents américains, ou des critiques de films du site Internet Movie Database (IMDb).  
  
Dans le cadre de ce travail, nous examinons les jeux de données les plus couramment utilisés pour la formation des spécialistes de l'apprentissage automatique et des spécialistes des données. De quel matériau sont-ils constitués ? Qui les a recueillis ? Quand ? Pour quelle raison ?
+
Chaque style d'écriture évoque des relations différentes entre les mots et reflète l'époque dont ils proviennent. En ce sens, le gestionnaire de paquets Python pour le traitement du langage naturel pourrait être considéré comme une capsule temporelle. Le matériel inclu a été sélectionné car jugé utile par une communauté de chercheurs. Malgré les spécificités, chaque jeu de données devient universel par défaut, en étant à la disposition d'un public aussi large.
  
Concept, code, réalisation: Cristina Cochior
+
Nous examinons les jeux de données les plus couramment utilisés pour l'entraînement des modèles d'apprentissage automatique. De quels matériaux sont-ils constitués ? Qui les a recueillis ? Quand ?
 +
 
 +
---
 +
 
 +
Concept, réalisation: Cristina Cochior

Latest revision as of 19:00, 22 March 2019

par Algolit

Lors des réunions mensuelles Algolit nous cherchons ou créons souvent des jeux de données. Parfois, nous utilisons des corpus déjà existants, disponibles via le site Natural Language Toolkit nltk. NLTK contient, entre autres, la Déclaration universelle des droits de l'Homme, les discours inauguraux des présidents américains, ou des critiques de films du site Internet Movie Database (IMDb).

Chaque style d'écriture évoque des relations différentes entre les mots et reflète l'époque dont ils proviennent. En ce sens, le gestionnaire de paquets Python pour le traitement du langage naturel pourrait être considéré comme une capsule temporelle. Le matériel inclu a été sélectionné car jugé utile par une communauté de chercheurs. Malgré les spécificités, chaque jeu de données devient universel par défaut, en étant à la disposition d'un public aussi large.

Nous examinons les jeux de données les plus couramment utilisés pour l'entraînement des modèles d'apprentissage automatique. De quels matériaux sont-ils constitués ? Qui les a recueillis ? Quand ?

---

Concept, réalisation: Cristina Cochior