Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

TP : creer un dictionnaire avec les url et les mots des pages web nettoyées #1

Open
vincentporte opened this issue Sep 7, 2018 · 2 comments

Comments

@vincentporte
Copy link
Member

Hello,
Voici un premier TP pour jouer avec Python.
Le fichire httpwwwlemansfr-ext_links.pickle contient un dictionnaire avec l'URL de la page et le contenu texte brute de cette page
Avec les notebooks 1-sanitize_collected_datas.ipynb et 2-preprocess_documents.ipynb, nous nettoyons le contenu des pages pour le servir gensim pour entrainer notre modele word2vec (output_file preprocessed_docs.txt)

OBJECTIF : construire un nouveau dictionnaire avec l'URL de la page en clé, le texte preprocessed en value
Des idées, des problèmes ? Partageons nos codes dans ce fil de discussions 🍡

@nvallas
Copy link

nvallas commented Sep 7, 2018

Ce serait intéressant que tu explique la méthode que tu as utilisée pour aspirer le site de Le Mans.
Ça permettra de comparer les différentes solutions disponibles et de rendre l’exercice reproductible.

@vincentporte
Copy link
Member Author

@nvallas , je viens de pusher le script de collect : collect.ipynb
bon, il est pas super clean (c'est peut etre pour çà que je n'avais pas assumé de le mettre dans github 😆 ) mais si ça peut aider …

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants