You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Hello,
Voici un premier TP pour jouer avec Python.
Le fichire httpwwwlemansfr-ext_links.pickle contient un dictionnaire avec l'URL de la page et le contenu texte brute de cette page
Avec les notebooks 1-sanitize_collected_datas.ipynb et 2-preprocess_documents.ipynb, nous nettoyons le contenu des pages pour le servir gensim pour entrainer notre modele word2vec (output_file preprocessed_docs.txt)
OBJECTIF : construire un nouveau dictionnaire avec l'URL de la page en clé, le texte preprocessed en value
Des idées, des problèmes ? Partageons nos codes dans ce fil de discussions 🍡
The text was updated successfully, but these errors were encountered:
Ce serait intéressant que tu explique la méthode que tu as utilisée pour aspirer le site de Le Mans.
Ça permettra de comparer les différentes solutions disponibles et de rendre l’exercice reproductible.
@nvallas , je viens de pusher le script de collect : collect.ipynb
bon, il est pas super clean (c'est peut etre pour çà que je n'avais pas assumé de le mettre dans github 😆 ) mais si ça peut aider …
Hello,
Voici un premier TP pour jouer avec Python.
Le fichire httpwwwlemansfr-ext_links.pickle contient un dictionnaire avec l'URL de la page et le contenu texte brute de cette page
Avec les notebooks 1-sanitize_collected_datas.ipynb et 2-preprocess_documents.ipynb, nous nettoyons le contenu des pages pour le servir gensim pour entrainer notre modele word2vec (output_file preprocessed_docs.txt)
OBJECTIF : construire un nouveau dictionnaire avec l'URL de la page en clé, le texte preprocessed en value
Des idées, des problèmes ? Partageons nos codes dans ce fil de discussions 🍡
The text was updated successfully, but these errors were encountered: