Projet - Boîte à Outils

Plurital Master 1


Find Out More

Bienvenue sur mon Projet Boîte à Outils!

Ce site a été réalisé dans le cadre du cours "Projet encadré 2 " du Master 1 Plurital (INALCO, Paris3 et Paris10).
Il s’agit de faire la présentation des différents travaux effectués. Ces travaux ont pour objectif l’extraction et le traitement des informations contenues dans des fils RSS du journal Le Monde de l’année 2016.

4 boîtes à outils


BAO1

L'extraction des informations contenues dans les fils.

More

BAO2

L'étiquetage de ces informations via TreeTagger et Cordial.

More

BAO3

L'extraction de patrons syntaxiques à partir des sorties de la BAO 2.

More

BAO4

La visualisation et filtrage des patrons via patron2graphe.exe.

More

BAO1

Extraction des informations contenues dans les fils.
La première partie du projet consiste à parcourir les répertoires contenant les fils RSS et d'en extraire les titres et les descriptions.
Le programme produit deux fichiers de sortie, un fichier TXT et un fichier XML.
PARCOURS DE L'ARBORESCENCE
Les fichiers contenant les fils RSS sont rangés dans des répertoires triés par dates.
La fonction parcours_arborescence_fichiers va parcourir le répertoire donné en argument. S'il trouve un répertoire il rentre dedans, s'il trouve un fichier ayant le nom de la rubrique qui a été donnée en deuxième argument, il va extraire ce qui se trouve dans les balisees description et titre.

Voici pour le contexte.



Les Résultats :

BAO2

Etiquetage des informations via TreeTagger et Cordial.
La deuxième partie du projet a pour but de faire un étiquetage morpho-syntaxique des fichiers de sortie de la BAO1. Nous utilisons deux méthodes pour faire l’étiquetage : TreeTagger et le logiciel Cordial.

Résultats TreeTagger :


Résultats Cordial :

BAO3

Extraction de patrons syntaxiques.
A la sortie de BAO2, pour chaque rubrique, on obtient des fichiers étiquetés par Cordial en format txt et par Treetagger reformatés en xml. Pour la BAO3, on va prendre ces fichiers en entrée, et extraire des patrons selon des patterns morpho-syntaxiques choisis - NOM ADJ, NOM PREP NOM et NOM NOM.

  Patron syntaxique   Exemple
  NOM ADJ   Menace terroriste
  NOM PREP NOM   Arme de Poing


Nous avons deux formats de fichiers : TXT et XML. Pour chacun, des méthodes spécifiques sont employées.

        •   Fichiers TXT

   Programme de Serge Fleury

Voici un fichier patron pour Serge Fleury :

PATRON SERGE FLEURY

Les patrons sont extraits, et une comparaison entre ceux-ci et ceux présents dans le fichier CORDIAL est opérée. Voici ce à quoi ressemble un fichier patron pour Serge Fleury. On regarde si le premier correspond, si c'est le cas, on regarde si les autres aussi correspondent. On s'assure que toute la ligne a bien été lue, il s'agit ensuite de récupérer les indices correspondant aux tokens trouvés pour les imprimer.

        •   Fichiers XML

   Feuille de style XSLT

Nous avons d'abord défini deux templates : NOM ADJ et NOM PREP NOM.


Comme dans le treetager la structure de données est montrée ci-dessus, Ce qu'on veut est le type NOM qui se situe à la première colonne de TREE-TAGGER, suivi par le type ADJ.

et comme les données que nous voulons sont toujours entre les balises <data>, pour accéder à <data>, il faut que nous précisions le chemin :

./PARCOURS/item/*/article/element

Donc nous avons appliqué les templates que nous avons déjà définis en indiquant les chemins et les nœuds entre les balises <td>, pour afficher les données automatiquement et ligne par ligne dans ce tableau.

De cette manière nous pouvons avoir la sortie XML avec la feuille de style, et dans ce fichier XML les tableaux sont bien formés et lisibles.

        BILAN

Cette étape nous a permis d'analyser différentes manières de régler un même problème, et elle fut avant tout enrichissante. L'analyse linguistique opérée sur les données à suivre après cette étape.