PRESENTATION DU PROJET
Le travail que nous vous présentons sur notre site internet a été effectué sur l’ensemble des fils RSS 2020 du journal Le Monde et se divise en trois parties, correspondant chacune à une « boîte à outils ».
Le corpus est divisé en mois, puis jour et enfin heure. Les fils RSS sont sous forme de documents XML, et correspondent chacun à une rubrique particulière. Ils sont constitués du titre de l'article ainsi que de sa description et son contenu. Le projet consistait à extraire des informations visées, les étiqutter et extraire des patrons morpho-syntaxiques.
Le but de ce projet est d'apprendre un langage de programmation, Perl ou Python en réalisant une suite de traitements de données divisée en plusieurs étapes. Chaque étape correspond à une "boîte à outils", celles-ci réalisent des tâches bien précises. Les outils informatiques utilisés pour faire ce projet sont Perl, XSLT, le Trameur.