Le Lecteur GloVe: Difference between revisions
From Algolit
Line 12: | Line 12: | ||
|} | |} | ||
− | + | ''Le Lecteur GloVe'' montre l'un des jeux de mots pré-formés, ou aussi plongements lexicaux, utilisés pour la modélisation d'apprentissage automatique, tels que ''We are a Sentiment Thermometer''. [https://nlp.stanford.edu/projects/glove/ GloVe] est un algorithme qui recherche des co-occurrences dans de gros fichiers texte. Il crée alors une carte sémantique des mots, dans laquelle des mots similaires se rassemblent en petites îles. Ce mappage est empaqueté sous la forme d'un fichier texte de 5 Go de large, formé de 1,917,494 lignes de 300 numéros par mot. | |
Le fichier GloVe est trié par fréquence de mots. Pour les besoins de l'exposition, nous avons réarrangé les mots par ordre alphabétique. Même si le Lecteur affichait 60 mots par seconde, cela prendrait 8 heures pour visualiser le fichier entier. Nous lançons le script en début de journée. L'ordre alphabétique vous donne un aperçu de l'emplacement du Lecteur dans le fichier. | Le fichier GloVe est trié par fréquence de mots. Pour les besoins de l'exposition, nous avons réarrangé les mots par ordre alphabétique. Même si le Lecteur affichait 60 mots par seconde, cela prendrait 8 heures pour visualiser le fichier entier. Nous lançons le script en début de journée. L'ordre alphabétique vous donne un aperçu de l'emplacement du Lecteur dans le fichier. |
Revision as of 13:58, 2 November 2017
Type: | Exploration Algolittéraire |
Données: | Common Crawl |
Technique: | plongement lexical |
Développé par: | Jeffrey Pennington, Richard Socher and Christopher D. Manning, chercheurs au département informatique de l'Université de Stanford & Common Crawl, une ONG basée en Californie |
Développé en : | Californie, USA |
Le Lecteur GloVe montre l'un des jeux de mots pré-formés, ou aussi plongements lexicaux, utilisés pour la modélisation d'apprentissage automatique, tels que We are a Sentiment Thermometer. GloVe est un algorithme qui recherche des co-occurrences dans de gros fichiers texte. Il crée alors une carte sémantique des mots, dans laquelle des mots similaires se rassemblent en petites îles. Ce mappage est empaqueté sous la forme d'un fichier texte de 5 Go de large, formé de 1,917,494 lignes de 300 numéros par mot.
Le fichier GloVe est trié par fréquence de mots. Pour les besoins de l'exposition, nous avons réarrangé les mots par ordre alphabétique. Même si le Lecteur affichait 60 mots par seconde, cela prendrait 8 heures pour visualiser le fichier entier. Nous lançons le script en début de journée. L'ordre alphabétique vous donne un aperçu de l'emplacement du Lecteur dans le fichier.
GloVe a été développé en 2014 par Jeffrey Pennington, Richard Socher et Christopher D. Manning, chercheurs au département d'informatique de l'Université de Stanford en Californie.
Le Lecteur GloVe utilise 75% des pages Web existantes sur Internet. Le contenu a été réalisé par Common Crawl, une ONG basée en Californie. Celle-ci postule qu'Internet devrait être disponible au téléchargement pour n'importe qui.
Téléchargez les jeux de données GloVe: https://nlp.stanford.edu/projects/glove/