Découvrir les étapes

En préambule, nous avons commencé par l'apprentissage du langage de programmation Perl. Cet outil s’utilise tout au long de notre projet.

Étape 1: extraction et nettoyage

Le programme Perl est utilisé pour l’extraction d’info et le nettoyage des données non-conformes qui empêchent le traitement suivant

Ressources >>

L'étape une consiste à parcourir le dossier contenant tous les fichiers RSS de l'année 2016 sur le site du journal Lemonde.fr. Notre but est d'extraire les titres et descriptions de chaque article.

La deuxième étape, suite aux résultats de l'étape une, permet de formater les données obtenues sous un format XML. Les données ainsi classées vont permettre leur analyse. Elles sont ensuite étiquetées à l'aide de TreeTagger ou Cordial. Ici, nous avons choisi d'utiliser TreeTagger.

Étape 2: étiquetage et formatage

Le programme treetagger est utilisé pour étiqueter le corpus extrait. Il est ensuite formaté par le programme Perl

Ressources >>

Étape 3: filtrage

Nous avons recours à XPath pour filtrer les patrons(N+ADJ), et à une feuille de style XSL pour construire la liste de patrons

Ressources >>

La troisième étape consiste à chercher les patrons des mots de certaines catégories grammaticales, en parcourant le fichier XML avec des requêtes XPath.

La quatrième étape permet de visualiser les résultats obtenus. Les graphes sont générés à l'aide du programme exécutable "patron2graphe.exe".

Étape 4: visualisation

Une fois la liste de patrons prête, un programme est mis en pratique pour créer le graphe des motifs dans la liste

Résultat & Ressources >>