Common Crawl FR: Difference between revisions
From Algolit
(Created page with "{| |- | Type: || Ensemble de données |- | Technique: || scraping |- | Développé par: || The Common Crawl Foundation, California, US |} [http://commoncrawl.org Common Crawl...") |
|||
(2 intermediate revisions by 2 users not shown) | |||
Line 8: | Line 8: | ||
|} | |} | ||
− | [http://commoncrawl.org Common Crawl] est une organisation sans but lucratif reconnue | + | [http://commoncrawl.org Common Crawl] est une organisation sans but lucratif reconnue, fondée par Gil Elbaz dans le but de démocratiser l'accès à l'information Web en produisant et en maintenant un référentiel ouvert de données d'analyse Web universellement accessible et analysable. |
− | Common Crawl effectue quatre explorations par an. Amazon Web Services a commencé à héberger les archives de Common Crawl à travers son programme Public Data Sets en 2012. L'analyse de septembre 2017 contient 3,01 milliards de pages Web et plus de 250 TiB de contenu non compressé, soit environ 75% d'Internet. | + | ''Common Crawl'' effectue quatre explorations par an. Amazon Web Services a commencé à héberger les archives de Common Crawl à travers son programme Public Data Sets en 2012. L'analyse de septembre 2017 contient 3,01 milliards de pages Web et plus de 250 TiB de contenu non compressé, soit environ 75% d'Internet. |
− | Les robots d'exploration de l'organisation respectent les stratégies nofollow et robots.txt. Le code source | + | Les robots d'exploration de l'organisation respectent les stratégies nofollow et robots.txt. Le code open source pour le traitement du jeu de données Common Crawl est disponible publiquement. |
− | Les ensembles de données d'analyse commune sont utilisés pour créer des ensembles de données | + | Les ensembles de données d'analyse commune sont utilisés pour créer des ensembles de données de plongement lexical pré-assemblés, comme GloVe (voir [http://www.algolit.net/index.php/The_GloVe_Reader The GloVe Reader]). word2vec est un autre jeu de données sur les plongées de mots pré-assemblées, très utilisé, basé sur les textes de Google News. |
Le site web de Maison du Livre dans le [http://index.commoncrawl.org/CC-MAIN-2017-39/ Common Crawl Index]: | Le site web de Maison du Livre dans le [http://index.commoncrawl.org/CC-MAIN-2017-39/ Common Crawl Index]: | ||
− | {"urlkey": "be,lamaisondulivre)/", "timestamp": "20170921193906", "filename": "crawl-data/CC-MAIN-2017-39/segments/1505818687837.85/warc/CC-MAIN-20170921191047-20170921211047-00095.warc.gz", "mime-detected": "application/xhtml+xml", "status": "200", "mime": "text/html", "digest": "KDTUFUFZASPU7DXCJRQN62DHWGXGUZIX", "length": "5082", "offset": "491381827", "url": "http://www.lamaisondulivre.be/"} | + | <pre>{"urlkey": "be,lamaisondulivre)/", "timestamp": "20170921193906", "filename": "crawl-data/CC-MAIN-2017-39/segments/1505818687837.85/warc/CC-MAIN-20170921191047-20170921211047-00095.warc.gz", "mime-detected": "application/xhtml+xml", "status": "200", "mime": "text/html", "digest": "KDTUFUFZASPU7DXCJRQN62DHWGXGUZIX", "length": "5082", "offset": "491381827", "url": "http://www.lamaisondulivre.be/"}</pre> |
Le site web de Constant dans le [http://index.commoncrawl.org/CC-MAIN-2017-39/ Common Crawl Index]: | Le site web de Constant dans le [http://index.commoncrawl.org/CC-MAIN-2017-39/ Common Crawl Index]: | ||
− | {"urlkey": "org,constantvzw)/", "timestamp": "20170920232443", "filename": "crawl-data/CC-MAIN-2017-39/segments/1505818687582.7/crawldiagnostics/CC-MAIN-20170920232245-20170921012245-00322.warc.gz", "mime-detected": "text/html", "status": "302", "mime": "text/html", "digest": "3I42H3S6NNFQ2MSVX7XZKYAYSCX5QBYJ", "length": "547", "offset": "10063605", "url": "http://www.constantvzw.org/"} | + | <pre>{"urlkey": "org,constantvzw)/", "timestamp": "20170920232443", "filename": "crawl-data/CC-MAIN-2017-39/segments/1505818687582.7/crawldiagnostics/CC-MAIN-20170920232245-20170921012245-00322.warc.gz", "mime-detected": "text/html", "status": "302", "mime": "text/html", "digest": "3I42H3S6NNFQ2MSVX7XZKYAYSCX5QBYJ", "length": "547", "offset": "10063605", "url": "http://www.constantvzw.org/"}</pre> |
− | |||
− | |||
+ | <pre>{"urlkey": "org,constantvzw)/", "timestamp": "20170921101437", "filename": "crawl-data/CC-MAIN-2017-39/segments/1505818687740.4/crawldiagnostics/CC-MAIN-20170921101029-20170921121029-00322.warc.gz", "mime-detected": "text/html", "status": "302", "mime": "text/html", "digest": "3I42H3S6NNFQ2MSVX7XZKYAYSCX5QBYJ", "length": "548", "offset": "10050808", "url": "http://www.constantvzw.org/"}</pre> | ||
+ | <pre>{"urlkey": "org,constantvzw)/", "timestamp": "20170925145800", "filename": "crawl-data/CC-MAIN-2017-39/segments/1505818691977.66/crawldiagnostics/CC-MAIN-20170925145232-20170925165232-00347.warc.gz", "mime-detected": "text/html", "status": "302", "mime": "text/html", "digest": "3I42H3S6NNFQ2MSVX7XZKYAYSCX5QBYJ", "length": "541", "offset": "1503578", "url": "http://constantvzw.org/"}</pre> | ||
[[Category:Rencontres-Algolittéraires]] | [[Category:Rencontres-Algolittéraires]] |
Latest revision as of 13:54, 2 November 2017
Type: | Ensemble de données |
Technique: | scraping |
Développé par: | The Common Crawl Foundation, California, US |
Common Crawl est une organisation sans but lucratif reconnue, fondée par Gil Elbaz dans le but de démocratiser l'accès à l'information Web en produisant et en maintenant un référentiel ouvert de données d'analyse Web universellement accessible et analysable.
Common Crawl effectue quatre explorations par an. Amazon Web Services a commencé à héberger les archives de Common Crawl à travers son programme Public Data Sets en 2012. L'analyse de septembre 2017 contient 3,01 milliards de pages Web et plus de 250 TiB de contenu non compressé, soit environ 75% d'Internet.
Les robots d'exploration de l'organisation respectent les stratégies nofollow et robots.txt. Le code open source pour le traitement du jeu de données Common Crawl est disponible publiquement.
Les ensembles de données d'analyse commune sont utilisés pour créer des ensembles de données de plongement lexical pré-assemblés, comme GloVe (voir The GloVe Reader). word2vec est un autre jeu de données sur les plongées de mots pré-assemblées, très utilisé, basé sur les textes de Google News.
Le site web de Maison du Livre dans le Common Crawl Index:
{"urlkey": "be,lamaisondulivre)/", "timestamp": "20170921193906", "filename": "crawl-data/CC-MAIN-2017-39/segments/1505818687837.85/warc/CC-MAIN-20170921191047-20170921211047-00095.warc.gz", "mime-detected": "application/xhtml+xml", "status": "200", "mime": "text/html", "digest": "KDTUFUFZASPU7DXCJRQN62DHWGXGUZIX", "length": "5082", "offset": "491381827", "url": "http://www.lamaisondulivre.be/"}
Le site web de Constant dans le Common Crawl Index:
{"urlkey": "org,constantvzw)/", "timestamp": "20170920232443", "filename": "crawl-data/CC-MAIN-2017-39/segments/1505818687582.7/crawldiagnostics/CC-MAIN-20170920232245-20170921012245-00322.warc.gz", "mime-detected": "text/html", "status": "302", "mime": "text/html", "digest": "3I42H3S6NNFQ2MSVX7XZKYAYSCX5QBYJ", "length": "547", "offset": "10063605", "url": "http://www.constantvzw.org/"}
{"urlkey": "org,constantvzw)/", "timestamp": "20170921101437", "filename": "crawl-data/CC-MAIN-2017-39/segments/1505818687740.4/crawldiagnostics/CC-MAIN-20170921101029-20170921121029-00322.warc.gz", "mime-detected": "text/html", "status": "302", "mime": "text/html", "digest": "3I42H3S6NNFQ2MSVX7XZKYAYSCX5QBYJ", "length": "548", "offset": "10050808", "url": "http://www.constantvzw.org/"}
{"urlkey": "org,constantvzw)/", "timestamp": "20170925145800", "filename": "crawl-data/CC-MAIN-2017-39/segments/1505818691977.66/crawldiagnostics/CC-MAIN-20170925145232-20170925165232-00347.warc.gz", "mime-detected": "text/html", "status": "302", "mime": "text/html", "digest": "3I42H3S6NNFQ2MSVX7XZKYAYSCX5QBYJ", "length": "541", "offset": "1503578", "url": "http://constantvzw.org/"}