La recherche des patrons dans les fichiers étiquetés avec Treetagger

Entrée : 3210-etiquete.xml, UTF-8

Sortie :

3210-treetagger-detnom.txt, UTF-8
3210-treetagger-detnom-freq.txt, UTF-8
3210-treetagger-nomnom.txt, UTF-8
3210-treetagger-nomnom-freq.txt, UTF-8

Explications :

Nous avons choisi de faire une recherche sur les entités nommées. La version de Treetagger que nous possédons dispose d'un tag NAM pour les noms propres. Pour les pays, nous avons effectué une recherche avec le patron DET:ART NAM, ce qui nous donne par exemple comme résultat "la Grèce". À noter que les pays et les régions s'employant avec une préposition ne seront pas reconnus, comme par exemple "la Corée du Nord". Cette limitation se remarque d'ailleurs très bien lorsque l'on veut s'intéresser aux organisations et aux compagnies. Elles ne correspondent à aucun patron morphosyntaxique précis et il est dès lors très difficile de les repérer avec cette méthode. Toutefois, les noms de personnes peuvent être facilement extraits grâce au patron NAM NAM, ce qui nous donne par exemple comme résultat "Donald Trump".

Concernant le script, plusieurs versions ont été proposées en classe et nous nous sommes basées sur une solution proposée par Serge Fleury.

Ainsi, le script "BAO3-treetagger.pl" prend en paramètre :

le fichier taggé avec Treetagger (dans le script, "$ARGV[0]")

Commande:

perl BAO3-treetagger.pl 3210-etiquete.xml

Nous avons tout d'abord encodé les listes en ISO-8859-1 puis nous les avons converties en UTF-8 à l'aide de la commande iconv. Il importe de bien respecter cet encodage et de ne pas utiliser à la place de l'ISO-8859-15 sous peine d'avoir par la suite des problèmes de conversion avec iconv.

Une fois les différentes listes obtenues, nous avons calculé la fréquence de chaque syntagme trouvé à l'aide de la commande :

cut -f1 3210-treetagger-detnom.txt | sort | uniq -c | sort -rg > 3210-treetagger-detnom-freq.txt

Les fichiers de sortie se répartissent comme suit :

une liste des syntagmes qui correspondent au patron morphosyntaxique DET:ART NAM (principalement des noms de pays) et leur fréquence
une liste des syntagmes qui correspondent au patron morphosyntaxique NAM NAM (principalement des noms de personnes) et leur fréquence

La recherche des patrons dans les fichiers étiquetés avec Cordial

Entrée : 3210.cnr, ISO-8859-15

Sortie :

3210-cordial-detnom.txt, UTF-8
3210-cordial-detnom-freq.txt, UTF-8
3210-cordial-nomnom.txt, UTF-8
3210-cordial-nomnom-freq.txt, UTF-8

Explications :

Comme mentionné plus haut, notre but est d'extraire les entités nommées de notre corpus. À la différence de Treetagger qui possède des tags généraux, les tags de Cordial sont beaucoup plus précis. Ils nous renseignent notamment sur le genre et le nombre des noms et des déterminants. Ce type d'information peut se révéler très utile dans un autre contexte, mais dans notre situation cela a compliqué la recherche. Ainsi, si avec Treetagger on pouvait se contenter du tag DET:ART NAM, ici il nous aurait fallu rechercher les tags DETDFS NPFS- DETDFP NPFP -DETDMS NPMS -DETDMP NPMP pour avoir un résultat similaire. Nous avons choisi de nous concentrer uniquement sur les syntagmes au singulier, ceux au pluriel étant en nombre nettement inférieur.

Concernant le script, plusieurs versions ont été proposées en classe et nous nous sommes basées sur une solution proposée par Axel Court, un ancien étudiant du Master Tal. L'avantage de cette solution est que tous les patrons sont stockés dans un seul fichier et qu'il n'est pas nécessaire de relancer le script à chaque changement de patron. Néanmoins, nous avons exécuté plusieurs fois le script pour bien distinguer les différents patrons utilisés.

Ainsi, le script "BAO3-cordial.pl" prend en paramètre :

le fichier étiqueté avec Cordial (dans le script, "$ARGV[0]")
le fichier contenant les patrons (dans le script "$ARGV[1]")

Commande:

perl BAO3-cordial.pl 3210.cnr motif.txt

Comme précisé dans l'article sur les encodages, il nous faut d'abord passer par un fichier de sortie encodé en ISO-8859-15, puis le convertir et enregistrer la conversion dans un autre fichier. Chaque lancement de script provoque donc un fichier en ISO-859-15, que nous n'exploitons pas, et un fichier en UTF-8.

Nous avons procédé comme ceci :

lancement du script pour chaque patron
calcul de la fréquence des syntagmes trouvés
concaténation des fichiers pour avoir la même structure que les listes obtenues avec Treetagger

Exemple :

recherche du patron DETDFS NPFS, résultat det-npfs.txt

calcul de la fréquence :

cut -f1 det-npfs.txt | sort | uniq -c | sort -rg > det-npfs-freq.txt

recherche du patron DETDNS NPMS, résultat det-npms.txt

calcul de la fréquence :

cut -f1 det-npms.txt | sort | uniq -c | sort -rg > det-npms-freq.txt

concaténation pour les listes :

paste det-npfs.txt det-npms.txt > 3210-cordial-detnom.txt

concaténation pour les fréquences :

paste det-npfs-freq.txt det-npms-freq.txt > 3210-cordial-detnom-freq.txt

Les fichiers de sortie se répartissent donc comme suit :

une liste des syntagmes qui correspondent aux patrons morphosyntaxiques DETDFS NPFS-DETDMS NPMS (principalement des noms de pays) et leur fréquence
une liste des syntagmes qui correspondent aux patrons morphosyntaxiques NPFS NPI-NPMS NPI (principalement des noms de personnes) et leur fréquence

La recherche des patrons dans les fichiers étiquetés avec Treetagger

Script Treetagger - BaO 3

La recherche des patrons dans les fichiers étiquetés avec Cordial

Script Cordial - BaO 3

Boîte à Outils 3

La recherche des patrons dans les fichiers étiquetés avec Treetagger

Script Treetagger - BaO 3

La recherche des patrons dans les fichiers étiquetés avec Cordial

Script Cordial - BaO 3