Extraction de patrons morphosyntaxiques

Cette troisième phase a pour objectif l'extraction de données typiquement appelées candidats termes, ou occurrences, à partir des données étiquetées et selon un modèle défini, afin de trouver un motif pertinent. Le patron, ou modèle, rédigé dans un fichier à part, est construit sur la base des étiquettes de la colonne Part of Speech, de notre fichier étiqueté.
Par exemple: le motif "commission mixte paritaire" a la forme NOM ADJ ADJ.

Le script ci-dessous matérialise cette étape.

Le patron morphosyntaxique

La recherche d'un patron morphosyntaxique a un résultat significatif qui témoigne de la grande utilité du traitement automatique du langage. En effet, les candidats termes extraits permettent aux spécialistes de voir quels termes appartiennent à tel domaine étudié.

Cette méthode présente un grand avantage car elle permet de mieux cibler la recherche suivant un modèle de syntagme défini. Grâce au patron, les cooccurrents qu'on ne souhaite pas voir apparaitre sont mis de côté.

Archive BAO3