Boite à Outil 3

Extraction de terminologie

Une fois les données étiquetées, nous passons à la boite à outil suivante. Cette troisième boite à outil est conçu dans l'objectif d'extraire des terminologies. Pour cela, il faut savoir qu'il faut être en possession du fichier talismane obtenue lors de la précédente étape. Nous avons besoin d'un fichier où l'on indiquera les patrons morpho-syntaxiques que l'on veut extraire. Ce fichier se présente comme ceci :

  • Si l'on veut extraire le patron morpho-syntaxique comprenant une préposition suivit et précédé d'un nom commun, il faut mentionner ceci : NC P NC
  • Voici le fichier obtenus pour la rubrique livre (3260) pour la terminologie (NC P NC) : Rubrique livre
  • Voici le fichier obtenus pour la rubrique Rendez-vous (3238) pour la terminologie (NC P NC) : Rubrique Rendez-vous
  • Voici le fichier obtenus pour la rubrique Cinéma (3476) pour la terminologie (NC P NC) : Rubrique Cinéma
  • Voici le fichier obtenus pour la rubrique Voyages (3546) pour la terminologie (NC P NC) est de 0 ; ceci peut s'expliquer par le faible nombre d token présent dans cette rubrique comparé au autres. Cette rubrique comporte ceertaines de la publicité, il y a donc peut de phrases.
  • Si l'on tente l'expérience avec une autre terminologie sur la même rubrique, notamment NC ADJ, le résultats a quasi doublé avec 1520 éléments trouvés: Rubrique livre
Pour lancer le script :
BAO3.pl sortie-3260-talismane.txt termino.txt

Télécharger le script :


Visualiser le script :

Get in touch

Contact