Introduction


Nous disposons d'une base de données sous forme de fichiers XML. Il s'agit des fils RSS pour les années 2017 et 2018 du journal Le monde, chaque fichier renvoie à un une rubrique du site pour un jour de l'année.
À l'aide de plusieurs scripts perl et python mais aussi des outils xml, nous avons pu extraire les titres et descriptions de chaque article de la rubrique "sport".
Ces données on été enrichies par deux annotations morphosyntaxiques réalisées avec TreeTagger et Talismane Cela nous a permi d'extraire des patrons morphosynatxiques et réaliser des graphes pour représenter les relations entre les tokens de ces patrons.

Accès aux différentes boîtes à outils:

BAO 1 BAO 2 BAO 3 BAO 4