I
Introuction du Projet
Pour le projet on travaille sur l'ensemble des fils RSS disponibles sur le site du journal Le Monde (pour le récupérer, cliquer ICI). Ce projet fait partie du cours Projet Encadré de Master 1 de TAL à Paris III, dirigé par le professeur, Monsieur Serge FLEURY. On a divisé le projet en 4 Boîte à Outils. D'abord on va extraire le contenu textuel de nos archives, et les stocke en format TXT et en XML.Ensuite on annote ces informations avec soit treetagger, soit le logiciel Cordial. Puis on utilise script perl ou feuille de style XSLT pour extraire les patrons selon le patterne que l'on a choisi. Finalement on nourit ces patron à un programme pour produire la graphe de la relation entre un certein motif dans le fichier des patrons avec les autres mots. Comme le schéma affiché ci-dessous: