Troisème boite à outils

Grâce à cette boite à outils, nous allons extraire des patrons morpho-syntaxiques via les fichiers étiquetés précédemment obtenus par TreeTager et cordial. Pour ce faire, nous allons utiliser plusieurs scripts perl.

Pour cette partie, j'ai décidé d'extraire plus particulièrement les patrons morpho-syntaxiques suivants :

  • Nom-Adj
  • Nom-Prep-Nom

Extraction des patrons morpho-syntaxiques Nom-Adj

J'ai tout d'abord extrait les patrons morpho-syntaxiques Nom-Adj des fichiers cordial grâce au script perl ci-dessous. Ce programme prend en argument le fichier cordial étiqueté.


Veuillez cliquer ici pour voir le script.

Il a ensuite fallu extraire les patrons morpho-syntaxiques Nom-Adj à partir des fichiers .xml étiquetés par TreeTagger grâce au script perl suivant. Ce script prend comme argument le fichier .xml étiqueté.


Veuillez cliquer ici pour voir le script.

Résultats pour la rubrique 3208

  • Cliquer ici pour voir les patrons Nom-Adj reconnus dans les titres étiquetés par cordial.
  • Cliquer ici pour voir les patrons Nom-Adj reconnus dans les titres étiquetés par TreeTagger.
  • Cliquer ici pour voir les patrons Nom-Adj reconnus dans les descriptions étiquetés par cordial.
  • Cliquer ici pour voir les patrons Nom-Adj reconnus dans les descriptions étiquetés par TreeTagger.

Résultats pour la rubrique 3210

  • Cliquer ici pour voir les patrons Nom-Adj reconnus dans les titres étiquetés par cordial.
  • Cliquer ici pour voir les patrons Nom-Adj reconnus dans les titres étiquetés par TreeTagger.
  • Cliquer ici pour voir les patrons Nom-Adj reconnus dans les descriptions étiquetés par cordial.
  • Cliquer ici pour voir les patrons Nom-Adj reconnus dans les descriptions étiquetés par TreeTagger.

Extractions des patrons morpho-syntaxiques Nom-Prep-Nom

J'ai ensuite extrait les patrons morpho-syntaxiques Nom-Prep-Nom des fichiers étiquetés par cordial en modifiant le script perl précédent.

Voici le nouveau script utilisé :


Veuillez cliquer ici pour voir le script.

Les patrons morpho-syntaxiques Nom-Prep-Nom ont aussi été extraits à partir des fichiers .xml étiquetés par TreeTagger grâce au script perl modifié suivant.


Veuillez cliquer ici pour voir le script.

Résultats pour la rubrique 3208

  • Cliquer ici pour voir les patrons Nom-Prep-Nom reconnus dans les titres du fichier cordial.
  • Cliquer ici pour voir les patrons Nom-Prep-Nom reconnus dans les titres du fichier TreeTagger.
  • Cliquer ici pour voir les patrons Nom-Prep-Nom reconnus dans les descriptions du fichier cordial.
  • Cliquer ici pour voir les patrons Nom-Prep-Nom reconnus dans les descriptions du fichier TreeTagger.

Résultats pour la rubrique 3210

  • Cliquer ici pour voir les patrons Nom-Prep-Nom reconnus dans les titres du fichier cordial.
  • Cliquer ici pour voir les patrons Nom-Prep-Nom reconnus dans les titres du fichier TreeTagger.
  • Cliquer ici pour voir les patrons Nom-Prep-Nom reconnus dans les descriptions du fichier cordial.
  • Cliquer ici pour voir les patrons Nom-Prep-Nom reconnus dans les descriptions du fichier TreeTagger.

Remarques

En analysant les patrons morpho-syntaxiques extraits, nous pouvons nous apercevoir que les logiciels cordial et TreeTagger n'annotent pas les fichiers de la même manière. Voici par exemple quelques différences notables :

  • Avec TreeTagger, les determinants ou prépositions élidés devant les noms sont pris en compte avec ce dernier, ce qui n'est pas le cas avec cordial. C'est pour cela que dans les extractions de patrons Nom-Prep-Nom nous pouvons par exemple trouver "droit de l'Homme" avec TreeTagger mais pas avec cordial.
  • De la même manière, le traitement des traits d'union est différent pour les deux logiciels. Avec TreeTager, les mots unis par un trait d'union sont pris comme une seul entitée, alors qu'avec le logiciel cordial ils sont pris comme des entités séparés. C'est pour cela par exemple que le mot "demi-finale" apparait lors de l'extraction des patrons Nom-Adj avec cordial et non avec TreeTagger.
  • Certains noms propres composés ne sont aussi pas reconnus de la même manière. Par exemple, le nom propre "Etats-Unis" est reconnu comme deux entités distinctes avec cordial, un NOM suivi d'un ADJ. Nous pouvons ainsi le retrouver dans les extractions de patrons NOM-ADJ. Avec le logiciel TreeTagger, "Etats-Unis" est bien reconnu comme un nom propre.