Stack Overflow est un site célèbre de questions-réponses liées au développement informatique.
Pour poser une question sur ce site, il faut entrer plusieurs tags afin de retrouver facilement la question par la suite. Pour les utilisateurs expérimentés, cela ne pose pas de problème, mais pour les nouveaux utilisateurs, il serait judicieux de suggérer quelques tags relatifs à la question posée.
Amateur de Stack Overflow, qui vous a souvent sauvé la mise, vous décidez d'aider la communauté en retour. Pour cela, vous développez un système de suggestion de tags pour le site. Celui-ci prendra la forme d’un algorithme de machine learning qui assignera automatiquement plusieurs tags pertinents à une question.
Stack Overflow propose un outil d’export de données, "StackExchange Data Explorer", qui recense un grand nombre de données authentiques de la plateforme d’entraide.
Mettre en œuvre des techniques d’extraction de features pour des données non structurées
Mettre en œuvre des techniques de réduction de dimension
Prétraiter des données non structurées pour obtenir un jeu de données exploitable
Représenter graphiquement des données à grandes dimensions