Notre démarche

 

Ce projet a pour objectif la réalisation d'une chaîne de traitements d'un corpus textuel, l'ensemble du travail étant centré sur l'utilisation du langage de programmation Perl et du langage de structuration de données XML.


Le corpus est formé d'articles du journal LE MONDE version internet, publiés en 2012. Ceux-ci ont été récupérés à travers des fils RSS en format XML, classifiés par ordre journalier.


 

Arborescence des fichiers RSS

 

Le travail a comporté plusieurs étapes, avec des tâches spécifiques :


BàO1

- extraction de certaines parties du contenu des fils RSS, notamment les titres et les descriptions des articles, en utilisant un programme écrit en langage Perl. Pour sélectionner les parties du texte qui nous intéressent, nous avons utilisé dans notre script des expressions régulières et des modules du langage Perl (XML::LibXML, XML::XPath), dédiés au traitement du contenu des fichiers XML. Plus...


BàO2

- étiquetage morpho-syntaxique du contenu textuel extrait avec les outils Treetagger (qui traite des fichiers en format XML) et Cordial; (qui traite des fichiers en format TXT). L'étiquetage a consisté à associer à chaque mot de notre texte sa catégorie morpho-syntaxique correspondante. Plus...


BàO3

- extraction de patrons syntaxiques choisis, correspondant à des syntagmes de la langue française. Autrement dit, sur la base des étiquettes établies à l'étape précédente et en utilisant des expressions régulières ou des requêtes XPath, des structures grammaticales choisies - telles "nom adjectif", "nom déterminant nom", "verbe préposition nom" etc. - ont été découpées et sauvegardées dans des listes distinctes. Plus...


BàO4

- représentation des patrons syntaxiques extraits sous la forme de graphes, à l'aide de l'outil textométrique Le Trameur. Plus...