Actions

Un sac de mots: Difference between revisions

From Algolit

(Created page with "Category:Rencontres-Algolittéraires Category:algolit-extension {| |- | Type: || Exploration algolittéraire |- | Technique: || Compteurs de fréquence |- | Développ...")
 
 
Line 1: Line 1:
[[Category:Rencontres-Algolittéraires]]
 
[[Category:algolit-extension]]
 
 
 
{|
 
{|
 
|-
 
|-
Line 18: Line 15:
  
 
Pour comprendre l'importance des mots moins communs mais significatifs, souvent liés au sujet du texte, la fonction TF-IDF (Fréquence Terminale - Fréquence de Document Inversée) peut être utilisée, où la fréquence d'un mot dans un seul texte est divisée par la fréquence moyenne du mot dans la collection.
 
Pour comprendre l'importance des mots moins communs mais significatifs, souvent liés au sujet du texte, la fonction TF-IDF (Fréquence Terminale - Fréquence de Document Inversée) peut être utilisée, où la fréquence d'un mot dans un seul texte est divisée par la fréquence moyenne du mot dans la collection.
 +
 +
[[Category:Rencontres-Algolittéraires]]
 +
[[Category:algolit-extension]]

Latest revision as of 13:37, 1 November 2017

Type: Exploration algolittéraire
Technique: Compteurs de fréquence
Développé par: Python, nltk, Algolit

Cette installation interactive vous guide à travers les différentes étapes du processus d'un modèle de sac-de-mots.

Le modèle sac-de-mots est un modèle de classification qui lit un texte comme une collection de mots. Lors du traitement d'un texte, le modèle rejette l'ordre des mots, la ponctuation et éventuellement les conjugaisons. Le modèle transforme le texte en une liste unique de mots utilisés dans le texte - littéralement un sac de mots.

Ce modèle est souvent utilisé pour comprendre le sujet d'un texte en reconnaissant les mots les plus fréquents ou importants, ou pour mesurer les similitudes des textes en comparant leurs sacs-de-mots.

Pour comprendre l'importance des mots moins communs mais significatifs, souvent liés au sujet du texte, la fonction TF-IDF (Fréquence Terminale - Fréquence de Document Inversée) peut être utilisée, où la fréquence d'un mot dans un seul texte est divisée par la fréquence moyenne du mot dans la collection.