Actions

Une ethnographie des jeux de données: Difference between revisions

From Algolit

Line 1: Line 1:
 
par Algolit
 
par Algolit
  
Un élément qui semble être négligé dans le transfert de stéréotypes de discimination à niveau sociétal vers la machine est le jeu de données. Il crée une étape intermédiaire dans la prise de décision : les paramètres par lesquels un environnement social est cloisonné sont déterminés par divers facteurs. Dans la création des jeux de données, qui constituent la base sur laquelle les modèles algorithmiques sont développés, les conflits et les ambiguïtés sont négligés au profit d'une réalité calculable. La collecte de données est politique, mais sa politique est rendue invisible dans la manière dont elle est présentée et visualisée. Les jeux de données ne sont pas une version distillée de la réalité, ni simplement une technologie en soi. Comme toute technologie, les jeux de données encodent leur but, leur finalité et la vision du monde de leurs fabricants.
+
Nous commençons souvent les réunions mensuelles Algolit en cherchant des ensembles de données ou en essayant de les créer. L'un des moyens les plus simples est d'utiliser des corpus déjà existants, mis à disposition via des kits comme [nltk] ou [scikit-learn]. Nltk contient, entre autres, la Déclaration des droits de l'homme, les discours inauguraux des présidents américains et les critiques de films de l'IMDb. Chaque style d'écriture évoquera des relations différentes entre les mots.
  
 
Dans le cadre de ce travail, nous examinons les jeux de données les plus couramment utilisés pour l'entraînement des modèles d'apprentissage automatique. De quels matériaux sont-ils constitués ? Qui les a recueillis ? Quand ? Pour quelle raison ?  
 
Dans le cadre de ce travail, nous examinons les jeux de données les plus couramment utilisés pour l'entraînement des modèles d'apprentissage automatique. De quels matériaux sont-ils constitués ? Qui les a recueillis ? Quand ? Pour quelle raison ?  
  
 
Concept, code, réalisation: Cristina Cochior
 
Concept, code, réalisation: Cristina Cochior

Revision as of 22:35, 19 March 2019

par Algolit

Nous commençons souvent les réunions mensuelles Algolit en cherchant des ensembles de données ou en essayant de les créer. L'un des moyens les plus simples est d'utiliser des corpus déjà existants, mis à disposition via des kits comme [nltk] ou [scikit-learn]. Nltk contient, entre autres, la Déclaration des droits de l'homme, les discours inauguraux des présidents américains et les critiques de films de l'IMDb. Chaque style d'écriture évoquera des relations différentes entre les mots.

Dans le cadre de ce travail, nous examinons les jeux de données les plus couramment utilisés pour l'entraînement des modèles d'apprentissage automatique. De quels matériaux sont-ils constitués ? Qui les a recueillis ? Quand ? Pour quelle raison ?

Concept, code, réalisation: Cristina Cochior