Présentation

Le projet Boite à Outils (ou BàO) a été réalisé dans le cadre du cours Projet Encadré du master 1 TAL commun aux universités Paris 3, Paris 10 et INALCO.

Objectifs

Mise en œuvre d'une chaine de traitement textuel semi-automatique.

Les données traitées ont été extraite par M.Fleury à partir des flux RSS du journal Le Monde.
Les fichiers se présentent sous le format texte brut et xml.

Les BàO

BàO 1

Outils : perl

Création d'un script perl pour extraire les données des fichiers texte et xml.

Utilisation de la récursivité pour se déplacer dans l'arborescence.

Extraction des parties intéressantes (ici, le titre et la description) à l'aide d'expressions régulières.

BàO 2

Outils : perl

Une fois les parties extraites, un étiquetage morphosyntaxique a été réalisé par TreeTagger.

La même action a été réalisé également avec Cordial mais de façon manuel.

BàO 3

Outils : perl

Une fois les fichiers étiquetés, des patrons morphosyntaxique ont été extrait. Par exemple, on a pu extraire tous les suites de noms suivis par un adjectif.

Pour l'extraction, elle a pu se faire grâce à deux méthodes, à l'aide d'un script perl et/ou bien d'une requête XPath.

BàO 4

Outils : perl

En utilisant les motifs extraits, création de graphes via le script perl patron2graphe de M.Fleury.

Ces graphes permettent une visualisation graphique des relations entre un mot choisi et le contexte dans lequel il apparait.

Analyse

Cette courte analyse porte sur les graphes générés par patron2graphe. Ces graphes sont générés à partir de motifs choisis comme société, politique, crise et appliquer sur une des rubriques des flux RSS comme International, Europe, etc..

Cette visualisation permet de voir si certains mots sont utilisés différement selon la rubrique sélectionnée.
Les mots selectionnés sont : étudiant, crise, migrant, bravo à eux!
Les catégories dans lequelles ils sont étudiés : International, Europe, France.

D'après les différents graphe, on distinguer des catégories par rapport aux cooccurents des motifs choisis.

Étudiante?s?

Les rubriques International et Europe parlent de la nationalité des étudiants avec par exemple américain, italien, belge, etc., la rubrique France n'évoque pas de nationalité.

Le point de vu millitantisme est abordé, notamment dans la rubrique France avec beaucoup de cooccurents comme millitantisme, représentant, syndicalisme, manifestation, il en va de même pour la rubrique International avec leader, mouvement.

La rubrique France parle du logement et ce qui touche à l'économie étudiante crédit, emploi, bourse.

Finalement dans les rubriques International et Europe se retrouvent des termes comme tuées, supplicié. Un champ lexical plus sombre que le reste.

Crises?

Chaque rubrique aborde le thème financier avec des cooccurents comme financière, économique, bancaire.

La politique internationale est aussi abordée pour les rubriques International et Europe, en effet on note la présence d'adjectifs se référant aux pays comme russo, turque, syrienne, ukrainienne, belge.
La crise est également liée à la politique avec des termes diplomatique, gouvernementale.

Différents secteurs sont cités également comme l'humanitaire, immobilière, migratoire, agricole, etc..

Enfin, la France semble plutôt subir une crise religieuse, sociale atteignant même un niveau paroxystique.

Migrante?s?

La question migratoire est traitée sous des aspects plutôt similaires, chaque rubrique évoque la nationalité des migrants, comme Afghan, Sénégalais, Syrien, etc.. Les nationalités évoqués par chaque rubrique étant différentes.

Le sort et la condition des migrants sont aussi abordés avec des cooccurents comme noyés, tués, évacués, morts, blessés.

La qualité des images laisse un peu à désirer ...

En conclusion, on peut noter que malgré les différentes lignes éditioriales des rubriques, les thèmes traités et le vocabulaire associé sont souvent similaires.

Annexes

Ici vous trouverez les différents scripts perl, bash et la feuille de style xslt utilisés. Ainsi que l'ensemble des fichiers de données.
La majorité des fichiers sont encodés en utf-8.

Scripts perl, bash et feuille xslt

Cliquez pour télécharger une archive .zip

Ces scripts ont été utilisé pour l'extraction de données, et de patrons.

À propos

Je m'appelle Arthur Provenier et ce site a été réalisé pour présenter les résultats du projet BàO.

Pour plus d'informations, vous pouvez voir ma page LinkedIn.