Description du Projet :

Le projet Encadré du deuxième semestre est réalisé dans quatre étapes. Dans la première étape, boîte à outils 1, on fait l’extraction des données textuels des balises « titre » et « description » des articles des fils RSS des rubriques du journal le monde pour l’année 2018. Notre script produit en sortie un fichier TXT et un fichier XML contenant les titres et descriptions des articles.
Dans la deuxième étape, boîte à outils 2, on modifie et complète le script de l’étape précédente pour effectuer l’étiquetage des fichiers RSS via treetagger et Talismane.
Dans la troisième étape, boîte à outils 3, on fait l’extraction des patrons morphosyntaxiques. On fait une compétition en utilisant des méthodes différentes et comparant les résultats. La première solution c’est via le langage perl. On construit un programme perl qui prend en entrée les textes bruts extraits et étiquetés via Talismane pour extraire les patrons morphosyntaxiques. La deuxième solution c’est via XSLT/XPath. On construire une feuille de styles XSLT qui prend en entrée les textes étiquetés via Treetagger dans la BàO2 pour faire l’extraction. La troisième solution c’est via XQuery/XPath. On construit des requêtes pour extraire les patrons morphosyntaxiques Sur les fichiers étiquetés avec Treetagger. Les patrons à extraire sont: {NOM PREP NOM PREP}, {VERBE DET NOM}, {NOM ADJ} et {ADJ NOM}.
Dans la quatrième étape, boîte à outils 4, on applique le programme « patron2graphe » fournit par Serge FLEURY sur les données construites à l'issue de la BàO3 pour faire des graphes autour d'un mot en particulier.