Projet Plurital

Le projet "boîtes à outils" (BàO) propose plusieurs scripts qui permettent de parcourir automatiquement une arborescence afin d'en extraire des graphes de co-occurrents. L'arborescence est composée de tous les fils RSS du monde de l'année 2016. Pour chaque rubrique de chaque jour de chaque mois nous avons un fils RSS différent.

Tout d'abord nous avons extrait le texte souhaité: nous indiquons une $rubrique spécifique de laquelle nous voulions tous les $titres et tous les $résumés du répertoire <2016>.

Une fois les informations dégagées du fichier initial elles sont stockées dans deux fichiers différents: le premier est un fichier en texte brut et le second en XML. Ces derniers vont eux mêmes être étiquetés par deux logiciels différents.

Nous obtenons alors des textes étiquetés morphosyntaxiquement. La troisième BàO est l'extraction, selon un patron morphosyntaxique donné, des éléments lexicalisés correspondants.

Enfin, la quatrième et dernière étape permet de visualiser à partir des résultats obtenus des graphes des co-occurrents des patrons extraits.

Ainsi nous analyserons des graphes provenant de divers rubriques afin de comparer le comportement en contexte d'un même patron morphosyntaxique selon différents sujets. Nous essaierons également d'apporter un regard critique sur les différentes chaînes de traitement choisies au regard des résultats produits.

↑