Actions

WikiHarass FR: Difference between revisions

From Algolit

(Created page with "{| |- | Type: || Ensemble de données |- | Source: || Wikipédia anglais |- | Développé par: || La Fondation Wikimedia |} Le [https://meta.wikimedia.org/wiki/Research:Deto...")
 
 
(3 intermediate revisions by 2 users not shown)
Line 7: Line 7:
 
| Développé par: || La Fondation Wikimedia
 
| Développé par: || La Fondation Wikimedia
 
|}
 
|}
 
  
 
Le [https://meta.wikimedia.org/wiki/Research:Detox Detox dataset] est un projet de Wikimedia et de [[Crowd Embeddings| Perspective API]] pour former un réseau neuronal qui permettrait de détecter le niveau de toxicité d'un commentaire.
 
Le [https://meta.wikimedia.org/wiki/Research:Detox Detox dataset] est un projet de Wikimedia et de [[Crowd Embeddings| Perspective API]] pour former un réseau neuronal qui permettrait de détecter le niveau de toxicité d'un commentaire.
 
  
 
L’[https://figshare.com/projects/Wikipedia_Talk/16731 ensemble de données original] consiste en:
 
L’[https://figshare.com/projects/Wikipedia_Talk/16731 ensemble de données original] consiste en:
* Un corpus de tous les 95 millions d'utilisateurs et d'articles diff fait entre 2001-2015 marqué par le modèle d'attaque personnelle.
+
* Un corpus de tous les 95 millions d'utilisateurs et d'articles diff fait entre 2001 et 2015 marqué par le modèle d'attaque personnelle.
* Un jeu de données annoté par un humain de 1m d'annotations de crowdfunding couvrant 100k diff (avec 10 jugements par diff).
+
* Un jeu de données annoté humainement d'1m d'annotations crowd-sourcées couvrant 100k diff (avec 10 jugements par diff).
 
 
  
 
Pour Algolit, une plus petite section de l'ensemble de données Detox a été utilisée, tirée du [https://conversationai.github.io/wikidetox/testdata/tox-sorted/Wikipedia%20Toxicity%20Sorted%20%28Toxicity%405%5BAlpha%5D%29.html Github Jigsaw], qui contient à la fois des modifications constructives et vandalistes.
 
Pour Algolit, une plus petite section de l'ensemble de données Detox a été utilisée, tirée du [https://conversationai.github.io/wikidetox/testdata/tox-sorted/Wikipedia%20Toxicity%20Sorted%20%28Toxicity%405%5BAlpha%5D%29.html Github Jigsaw], qui contient à la fois des modifications constructives et vandalistes.
  
 
+
[[Category:Rencontres-Algolittéraires]]
[[Category:Rencontres-Algolittéraires]
 

Latest revision as of 13:55, 2 November 2017

Type: Ensemble de données
Source: Wikipédia anglais
Développé par: La Fondation Wikimedia

Le Detox dataset est un projet de Wikimedia et de Perspective API pour former un réseau neuronal qui permettrait de détecter le niveau de toxicité d'un commentaire.

L’ensemble de données original consiste en:

  • Un corpus de tous les 95 millions d'utilisateurs et d'articles diff fait entre 2001 et 2015 marqué par le modèle d'attaque personnelle.
  • Un jeu de données annoté humainement d'1m d'annotations crowd-sourcées couvrant 100k diff (avec 10 jugements par diff).

Pour Algolit, une plus petite section de l'ensemble de données Detox a été utilisée, tirée du Github Jigsaw, qui contient à la fois des modifications constructives et vandalistes.