Boite à outils n°2

Dans cette partie du devoir, nous allons passer au étiquettage morpho-syntaxiques des fichiers textes ou XML obtenus lors de la boîte à outils n°1. Pour cela, nous allons nous servir de deux outils :

  • Cordial : Cet outil se sert de l'outil texte brut qui a été prevu en format ISO-8859-1 ou pour les versions plus récentes en UTF-8. Ce programme passe par une interface graphique.
  • Treetagger: Cet outil se sert de son coté des fichiers XML pour anoter les fichiers grâce aux lemmes ou catégories grammaticales.
  • 1) Cordial

    Cordial est un outil payant, disponible uniquement sous windows qui permet un étiquettage des fichiers .txt et qui donne en résultat des fichiers en .CNR

    • Le tout premier problème détecté est l'encodage des fichiers, en effet Cordial ne supporte que les fichiers en ISO-8859-1 alors que les fichiers que nous avons obtenus sont eux, en UTF-8. Alors nous devons tout d'abord faire une transformation de l'encodage grâce à la commande iconv. Nous l'avons réalisés par exemple ici, sur le fichier de la rubrique cinéma.

      Nous devons faire cela pour tous les fichiers sortants

    • A l'ouverture de Cordial, nous devons cliquer sur "Syntaxe" et ensuite sur "etiquetage texte", en cochant seulement l'option "lemmes"

    • Cliquez ici pour voir le résultat par exemple pour la rubrique VOYAGE

      On peut voir dans cet image l'analyse de deux mots par Cordial. Tout d'abord le mot "Melbourne", présent dans le texte VOYAGE qui a été analysé NPSIG c'est-à-dire, nom propre singulier. Il y a aussi les mots tels que "est" qui vient du verbe "être" comme indiqué ici et analysé VINDP3S c'est-à-dire, verbe à l'infinitif du présent à la 3ème personne du singulier.

    • Cliquez ici pour voir le résultat par exemple pour la rubrique POLITIQUE

      On peut voir ici tout d'abord le mot "Débat" qui de son coté a été rangé avec bien entendu le mot débat sans majuscusule et analysé comme NCMS, c'est-à-dire, comme nom commun, masculin et en singulier. Quant à lui, le mot "en" a été analysée comme étant un PREP, c'est-à-dire, tout simplement, comme une préposition.

    • On peut voir alors la très bonne précision de Cordial pour manipuler les mots.

      Cliquez ici pour télécharger tous les fichiers analysés par CORDIAL.

    2) Treetagger

    Au contraire de Cordial, pour produire des fichiers .txt analysés par Treetagger, on doit passer par une commande à inscrire sur le script tiré lors. Pour ce faire nous allons tout d'abord incorporer un fichier .txt à la fin du script bào 1 pour ensuite lancer un autre script qui transformera ce fichier en fichier .xml

    a) Création du fichier .txt

    On va passer par l'incorporation de quelques lignes sur le script bào1 pour extraire des fichiers .txt morpho-syntaxiquement taggé.
    • On va tout d'abord créer deux fichiers nouveaux qui nous permettront d'un coté traiter les fichiers avec Treetagger et pour créer un fichier de sortie avec les résultats de Treetagger.

      On va ici, au contraire de Cordial, se servir du même encodage (UTF-8) que les autres.
    • On peut ensuite passer au traitement du texte avec les commandes spécifiques à Treetagger.

      La commande "system" permet de lancer une commande perl à l'intérieur du script.

    • Ces fichiers doivent ensuite être transformés en UTF-8 pour ensuite pouvoir être transformés en XML dans la 2ème étape. On va alors réaliser un iconv qu'on a déjà vu précedemment.
    • Vous pouvez télécharger les fichiers en version .txt ici.

    b) Transformation du fichier .txt au fichier .xml

    Ensuite on va procéder à la transformation des fichiers .txt obtenus par Treetagger vers une transformation à des fichiers .XML

    Vous pouvez télécharger le script ici ou vous pouvez le voir ici.

    • Ce script se divise en 5 parties. Tout d'abord, nous devons réaliser l'ouverture des fichiers ENTREE et SORTIE qui serviront pour analyser le fichier d'entrée et produire un fichier de sortie en XML.

    • Ensuite, nous inscrivons l'entête du fichier de sortie en XML

    • On peut ensuite passer au traitement du fichier d'entrée. On doit tout d'abord réaliser un nettoyage car certaines entrées posent problèmes comme les guillemets, les & et les entrées avec des chevrons produites par Treetagger qui poseront problème ensuite à l'affichage du fichier xml. On doit donc procéder à un nettoyage grâce avec des expressions régulières.

    • Ensuite ce traitement se fera grâce aux colonnes du fichier .txt

    • On doit passer à la fermeture de l'entête du fichier XML à la sortie

    • Et finalament, on doit passer à la fermeture des fichiers ENTREE et SORTIE

    • Après, suite à l'analyse du fichier qu'on a obtenu, on a pu constater qu'une erreur se présentait. En effet, dû à la configuration du fichier en sortie treetagger, on avait un retour à la ligne qui se manifestait aussi dans le fichier final. Dans l'impossibilité de pouvoir enlever ce retour à la ligne avec une expression régulière qu'on aurait pu ajouter au script, on a opté pour se servir d'un editor tel que Vi Editor, pour pouvoir nous débarrasser de tous ces retours à la ligne. Si vous souhaitez installer Vi Editor sur votre machine, vous pouvez suivre les instructions sur ce site internet. Cliquez ici.

    • Après avoir, vous devez ensuite taper vi [nom du fichier] [nom du fichier] tenant comme le fichier que vous souhaitez lire. S'ouvrira ensuite, Vi editor avec le fichier affiché avec les retours à la ligne indésirables marqués ^M. Vous pourrez ensuite procéder au traitement sur le texte. Vous devez tout d'abord apuyer sur la touche ESC avec la touche :

    • Et finalement comme vous pouvez le voir il suffit de taper %s/[appuyer sur CTRL-V][appuyer sur CTRL-M]//g. Vous obtenez alors les nombres de fois que cet occurrences a été trouvée et le fichier sans l'occurrence indésirable. Il suffit donc d'appuyer sur ESC: et w ENTER pour enregistrer le fichier et puis sur ESC : et q! ENTER pour sortir de Vi Editor.

    • Vous pouvez télécharger les fichiers en version .xml ici.

    • Vous pouvez voir un court extrait (de préférence avec Firefox ou Safari) ici.

    Contact

    Lien outils

    • TAL PARIS 3
      Site où vous pouvez tout savoir sur le Traitement Automatique des Langues à la Sorbonne-Nouvelle
    • ATALA
      Association pour le Traitement Automatique des Langues
    • PluriTAL
      Site du master Ingénierie Linguistique

    Travaux précedents