Ce site a été réalisé dans le cadre du cours "Projet encadré 2 " du Master 1 Plurital (INALCO, Paris3 et Paris10).
Il s’agit de faire la présentation des différents travaux effectués. Ces travaux ont pour objectif l’extraction et le traitement des informations contenues dans des fils RSS du journal Le Monde de l’année 2016.
Extraction des informations contenues dans les fils.
La première partie du projet consiste à parcourir les répertoires contenant les fils RSS et d'en extraire les titres et les descriptions.
Le programme produit deux fichiers de sortie, un fichier TXT et un fichier XML.
PARCOURS DE L'ARBORESCENCE
Les fichiers contenant les fils RSS sont rangés dans des répertoires triés par dates.
La fonction parcours_arborescence_fichiers va parcourir le répertoire donné en argument. S'il trouve un répertoire il rentre dedans, s'il trouve un fichier ayant le nom de la rubrique qui a été donnée en deuxième argument, il va extraire ce qui se trouve dans les balisees description et titre.
Voici pour le contexte.
Etiquetage des informations via TreeTagger et Cordial.
La deuxième partie du projet a pour but de faire un étiquetage morpho-syntaxique des fichiers de sortie de la BAO1. Nous utilisons deux méthodes pour faire l’étiquetage : TreeTagger et le logiciel Cordial.
Résultats TreeTagger :
Résultats Cordial :
Extraction de patrons syntaxiques.
A la sortie de BAO2, pour chaque rubrique, on obtient des fichiers étiquetés par Cordial en format txt et par Treetagger reformatés en xml. Pour la BAO3, on va prendre ces fichiers en entrée, et extraire des patrons selon des patterns morpho-syntaxiques choisis - NOM ADJ, NOM PREP NOM et NOM NOM.
Patron syntaxique | Exemple |
---|---|
NOM ADJ | Menace terroriste |
NOM PREP NOM | Arme de Poing |
Nous avons deux formats de fichiers : TXT et XML. Pour chacun, des méthodes spécifiques sont employées.
• Fichiers TXT
Programme de Serge Fleury
Voici un fichier patron pour Serge Fleury :
PATRON SERGE FLEURY
Les patrons sont extraits, et une comparaison entre ceux-ci et ceux présents dans le fichier CORDIAL est opérée. Voici ce à quoi ressemble un fichier patron pour Serge Fleury. On regarde si le premier correspond, si c'est le cas, on regarde si les autres aussi correspondent. On s'assure que toute la ligne a bien été lue, il s'agit ensuite de récupérer les indices correspondant aux tokens trouvés pour les imprimer.
• Fichiers XML
Feuille de style XSLT
Nous avons d'abord défini deux templates : NOM ADJ et NOM PREP NOM.
Comme dans le treetager la structure de données est montrée ci-dessus, Ce qu'on veut est le type NOM qui se situe à la première colonne de TREE-TAGGER, suivi par le type ADJ.
et comme les données que nous voulons sont toujours entre les balises <data>, pour accéder à <data>, il faut que nous précisions le chemin :
./PARCOURS/item/*/article/element
Donc nous avons appliqué les templates que nous avons déjà définis en indiquant les chemins et les nœuds entre les balises <td>, pour afficher les données automatiquement et ligne par ligne dans ce tableau.
De cette manière nous pouvons avoir la sortie XML avec la feuille de style, et dans ce fichier XML les tableaux sont bien formés et lisibles.
BILAN
Cette étape nous a permis d'analyser différentes manières de régler un même problème, et elle fut avant tout enrichissante. L'analyse linguistique opérée sur les données à suivre après cette étape.