Actions

Le Lecteur GloVe

From Algolit

Type: Exploration Algolittéraire
Données: Common Crawl
Technique: plongement lexical
Développé par: Jeffrey Pennington, Richard Socher and Christopher D. Manning, chercheurs au département informatique de l'Université de Stanford & Common Crawl, une ONG basée en Californie
Développé en : Californie, USA

Le Lecteur GloVe montre l'un des jeux de mots pré-formés, ou aussi plongements lexicaux, utilisés pour la modélisation d'apprentissage automatique, tels que Nous sommes un thermomètre sentimental. GloVe est un algorithme qui recherche des co-occurrences dans de gros fichiers texte. Il crée alors une carte sémantique des mots, dans laquelle des mots similaires se rassemblent en petites îles. Ce mappage est empaqueté sous la forme d'un fichier texte de 5Go de large, formé de 1.917.494 lignes de 300 numéros par mot.

Le fichier GloVe est trié par fréquence de mots. Pour les besoins de l'exposition, nous avons réarrangé les mots par ordre alphabétique. Même si le Lecteur affichait 60 mots par seconde, cela prendrait 8 heures pour visualiser le fichier entier. Nous lançons le script en début de journée. L'ordre alphabétique vous donne un aperçu de l'emplacement du Lecteur dans le fichier.

GloVe a été développé en 2014 par Jeffrey Pennington, Richard Socher et Christopher D. Manning, chercheurs au département d'informatique de l'Université de Stanford en Californie.

Le Lecteur GloVe utilise 75% des pages Web existantes sur Internet. Le contenu a été réalisé par Common Crawl, une ONG basée en Californie. Celle-ci postule qu'Internet devrait être disponible au téléchargement pour n'importe qui.

Téléchargez les jeux de données GloVe: https://nlp.stanford.edu/projects/glove/