Le Livre de Demain dans un Sac de Mots
From Algolit
par Algolit
Le modèle du sac de mots est une représentation simplifiée du texte utilisé dans le traitement du langage naturel. Dans ce modèle, un texte est représenté sous forme de collection de mots uniques, sans tenir compte de la grammaire, de la ponctuation et même de l'ordre des mots. Le modèle transforme le texte en une liste unique de mots et leur occurrence dans le texte, littéralement un sac de mots.
Cette forte réduction de la langue fut un choc au début de nos expériences en apprentissage automatique. Le sac de mots est souvent utilisé comme référent, sur base duquel le nouveau modèle doit s’efforcer d’être plus performant. Il peut comprendre le sujet d'un texte en reconnaissant les mots les plus fréquents ou importants. On mesure souvent les similitudes des textes en comparant leurs sacs de mots.
Pour cet ouvrage, l'article " Le Livre de Demain " de l'ingénieur G. Vander Haeghen, publié en 1907 dans le Bulletin de l'Institut International de Bibliographie, a été littéralement réduit à un sac de mots à emporter.