Sur ce site, je vais vous présenter les exercices que nous avons fait tout au long du semestre dans le cadre du cours "Document Structuré" du Master 1 pluriTAL, par les enseignants Serge Fleury et Ioana Galleron de Paris 3 - Sorbonne-Nouvelle.
Ce site présente un travail Universitaire réalisé dans le cadre d'un cours de Master 1 en Traitement Automatique des Langues : "Programmation et Projet Encadré 2". Cette formation est proposée par les universités Sorbonne Nouvelle, Paris Nanterre et l'Institut National des Langues et Civilisations Orientales (INALCO). Ce dernier nous permets de travaillé sur des textes considérés en tant que documents qui ont une structure logique de base. Avec XML, XSLT, XQuery, et XPath , nous allons exploré et transformé les textes à partir de leur organisation logique
Notre corpus de travail est une arborescence de fils RSS du journal Le Monde, recueillis tous les jours de l'année 2021 à 19h . L'arborescence contient un répertoire pour chaque mois de l'année, dans ces derniers se trouvent des dossiers. dans ces répertoires, on trouve les fichiers qui nous intéressent : les flux RSS de chaque rubrique, au format XML. Les rubriques ont chacune un identifiant, ce qui nous permet d'identifier facilement les différents fichiers de flux RSS.