Lauryane Bonduelle

Programmation et Projet encadré

BAO3 - Extraction de relations

"BAO3, Extraction de patrons : recherche et extraction de termes sur les données étiquetées (les séquences NOM PREP NOM, NOM ADJ etc.) ou de relations de dépendances (cf Cours Documents Structurés)"

Pour obtenir le document qui permet de réaliser cet exercice, on part du fichier BAO2_perl.udpipe obtenu avec le script Perl lors de la BAO2, et on utilise le programme udpipe2xml-version-sans-titrevsdescription-v2.plqui crée un fichier XML à partir du fichier CoNLL-U.

Le fichier obtenu, utilisé pour ces scripts : BAO2_perl.udpipe.xml

Le but est de sortir des relations syntaxiques dans les titres et les descriptions de la rubrique. Pour cela, on trouve dans le fichier les mots ayant la relation souhaitée, présente dans la 8ème balise <a>, puis on récupère la position de son gouverneur. Ainsi on peut récupérer les deux lemmes qui ont cette relation, présents dans la troisième balise <a> de chaque élément.

Les deux scripts sont à lancer avec comme arguments : [fichier xml annoté][relation souhaitée]

Script Python

Script Perl

En Perl, on ne peut pas directement aller chercher la posiiton du gouverneur. On doit d'abord la comparer à la position du mot trouvé, pour ensuite décider si l'on doit parcourir les balises en remontant ou en descendant. Le résultat est trié par nombre d'occurrences.