Qu'est-ce qu'on fait?

  • À partir des textes segmentés et étiquetés à la sortie de Bao2, On peut extraire des informations selon les patrons syntaxiques demandés. Par exemple: Préposition_Nom
  • Vu qu'on a utilisé deux outils pour l'étiquetage, donc en face de ces deux formes de résultats, on a des façons différentes de les traiter.

  • Méthode 1 : À partir de la sortie de Cordial

    Un script perl est écrit pour parcourir le texte segmenté. L'idée est que nous regardons en itérant les mots dans une phrase (qui est marqué par PCTFORTE une ponctuation forte) s'il existe une séquence mot dont les POS sont exactement ceux dans notre fichier de motif. Le script est ici.

  • Entrée du script: 1. Sortie cnr de Cordial 2. Un fichier txt contenant les patrons morphosyntaxiques souhaités
  • Sortie: un fichier contenant les syntagmes souhaités


  • Méthode 2 : À partir de la sortie de Treetagger

    Un fichier xsl est préparé pour transformer les xml et pour extraire les patrons morphosyntaxiques; Il faut savoir que pour ce grand fichier, on peux aussi utiliser >Xquery (avec XBASE), ça sera plus efficace.

    Sortie: un fichier contenant les syntagmes souhaités



    ---Patrons morphosyntaxiques cherchés: Det_A_NOM motif_Cordial et Treetagger_xsl et Treetagger_xquery

  • Sortie Cordial: 3210 3214 3224
  • Sortie Treetagger: 3210 3214 3224
  • Sortie Treetagger Xquery: exemple de 3210 (pour 3214, 3224 il faut seulement changer le database et le nom dans doc)

  • ---Patrons morphosyntaxiques cherchés: Prep_Det_Nom_Prep motif_Cordial et Treetagger_xsl et Treetagger_xquery

  • Sortie Cordial: 3210 3214 3224
  • Sortie Treetagger: 3210 3214 3224
  • Sortie Treetagger Xquery: exemple de 3210 (pour 3214, 3224 il faut seulement changer le database et le nom dans doc)

  • ---Patrons morphosyntaxiques cherchés: Vinf_Det_Nom motif_Cordial et Treetagger_xsl et Treetagger_xquery

  • Sortie Cordial: 3210 3214 3224
  • Sortie Treetagger: 3210 3214 3224
  • Sortie Treetagger Xquery: exemple de 3210 (pour 3214, 3224 il faut seulement changer le database et le nom dans doc)
  • Performances: Xquery--le meilleur