TP : creer un dictionnaire avec les url et les mots des pages web nettoyées #1

vincentporte · 2018-09-07T10:45:41Z

Hello,
Voici un premier TP pour jouer avec Python.
Le fichire httpwwwlemansfr-ext_links.pickle contient un dictionnaire avec l'URL de la page et le contenu texte brute de cette page
Avec les notebooks 1-sanitize_collected_datas.ipynb et 2-preprocess_documents.ipynb, nous nettoyons le contenu des pages pour le servir gensim pour entrainer notre modele word2vec (output_file preprocessed_docs.txt)

OBJECTIF : construire un nouveau dictionnaire avec l'URL de la page en clé, le texte preprocessed en value
Des idées, des problèmes ? Partageons nos codes dans ce fil de discussions 🍡

nvallas · 2018-09-07T19:26:47Z

Ce serait intéressant que tu explique la méthode que tu as utilisée pour aspirer le site de Le Mans.
Ça permettra de comparer les différentes solutions disponibles et de rendre l’exercice reproductible.

vincentporte · 2018-09-15T06:34:59Z

@nvallas , je viens de pusher le script de collect : collect.ipynb
bon, il est pas super clean (c'est peut etre pour çà que je n'avais pas assumé de le mettre dans github 😆 ) mais si ça peut aider …

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

TP : creer un dictionnaire avec les url et les mots des pages web nettoyées #1

TP : creer un dictionnaire avec les url et les mots des pages web nettoyées #1

vincentporte commented Sep 7, 2018

nvallas commented Sep 7, 2018

vincentporte commented Sep 15, 2018

TP : creer un dictionnaire avec les url et les mots des pages web nettoyées #1

TP : creer un dictionnaire avec les url et les mots des pages web nettoyées #1

Comments

vincentporte commented Sep 7, 2018

nvallas commented Sep 7, 2018

vincentporte commented Sep 15, 2018