Qu'est-ce qu'on fait?
Méthode 1 : À partir de la sortie de Cordial
Un script perl est écrit pour parcourir le texte segmenté. L'idée est que nous regardons en itérant les mots dans une phrase (qui est marqué par PCTFORTE une ponctuation forte) s'il existe une séquence mot dont les POS sont exactement ceux dans notre fichier de motif. Le script est ici.
Méthode 2 : À partir de la sortie de Treetagger
Un fichier xsl est préparé pour transformer les xml et pour extraire les patrons morphosyntaxiques; Il faut savoir que pour ce grand fichier, on peux aussi utiliser >Xquery (avec XBASE), ça sera plus efficace.
Sortie: un fichier contenant les syntagmes souhaités
---Patrons morphosyntaxiques cherchés: Det_A_NOM motif_Cordial et Treetagger_xsl et Treetagger_xquery
---Patrons morphosyntaxiques cherchés: Prep_Det_Nom_Prep motif_Cordial et Treetagger_xsl et Treetagger_xquery
---Patrons morphosyntaxiques cherchés: Vinf_Det_Nom motif_Cordial et Treetagger_xsl et Treetagger_xquery
Performances: Xquery--le meilleur