Un sac de mots
From Algolit
Revision as of 14:15, 27 October 2017 by Emma (talk | contribs) (Created page with "Category:Rencontres-Algolittéraires Category:algolit-extension {| |- | Type: || Exploration algolittéraire |- | Technique: || Compteurs de fréquence |- | Développ...")
Type: | Exploration algolittéraire |
Technique: | Compteurs de fréquence |
Développé par: | Python, nltk, Algolit |
Cette installation interactive vous guide à travers les différentes étapes du processus d'un modèle de sac-de-mots.
Le modèle sac-de-mots est un modèle de classification qui lit un texte comme une collection de mots. Lors du traitement d'un texte, le modèle rejette l'ordre des mots, la ponctuation et éventuellement les conjugaisons. Le modèle transforme le texte en une liste unique de mots utilisés dans le texte - littéralement un sac de mots.
Ce modèle est souvent utilisé pour comprendre le sujet d'un texte en reconnaissant les mots les plus fréquents ou importants, ou pour mesurer les similitudes des textes en comparant leurs sacs-de-mots.
Pour comprendre l'importance des mots moins communs mais significatifs, souvent liés au sujet du texte, la fonction TF-IDF (Fréquence Terminale - Fréquence de Document Inversée) peut être utilisée, où la fréquence d'un mot dans un seul texte est divisée par la fréquence moyenne du mot dans la collection.