Extraire des patrons syntaxiques et une relation (obj) sur les fichiers étiquettés par TreeTagger et UDPIPE.
Pour extraire les patrons qui nous interesse, nous allons utiliser les fichiers annotés de la boîte à outil 2. Nous allons utiliser deux scripts différents, un pour les fichiers xml étiquettés par TreeTagger et un autre pour les fichier txt étiquettés par Udpipe. Les deux scripts sont similaires. Seul la regexp pour matcher les patrons diffèrent.
pour télécharger le script pour les annotations via TreeTagger:
On a besoin de trois arguments pour ce script : le fichier de la BaO2, le nom de la rubrique pour nommer le fichier, et le patron syntaxique (de la forme NOM ADJ pour le patron NOM-ADJ). La sortie est un fichier .txt. On va lancer ce script pour les 6 patrons syntaxiques et pour chacun des trois rubriques.
Nous allons utiliser les fichiers au format .xml étiquettés par Udpipe de la BaO2 pour extraire la relation objet (obj).
On a besoin de trois arguments pour ce script : le fichier de la BaO2, le nom de la relation que l'on veut extraire (obj ici) et le nom de la rubrique pour nommer le fichier. La sortie est un fichier .txt
Nous allons récupérer les arguments passés en ligne de commande : le fichier à traiter, le nom de la relation à extraire, et la rubrique pour nommer le fichier. Nous créeons également deux buffers pour faire notre recherche sur la relation et un dictionnaire pour récupérer les occurrences extraites.
On va lire notre fichier ligne par ligne. On donne un nom à chaque champ pour pouvoir récupérer nos données par la suite. On va utiliser notre buffer pour enregistrer la forme du mot (2e colonne) avec comme clé son identifiant (1e colonne). On va ensuite chercher la relation, si on la trouve, on va ajouter à notre liste obj_buf la forme du mot ainsi que la position de la tête de la relation.
On récupère ensuite les informations de la tête stockée dans le buffer. On va pouvoir enregister notre relation, avec le dépendant et le gouverneur dans un nouveau dictionnaire (f). Si la forme extraite est déjà dans notre dictionnaire, on ajoute +1 à la valeur, sinon, on l'initialise à 1.
Une fois cela fait, on remet réinitialise nos buffers.
On va trier notre dictionnaire par les valeurs (ordre décroissant), grâce à la fonction sorted et au module operator.
On récupère également le total des relations objets trouvés en additionnant toutes les valeurs du dictionnaire.
Enfin, on écrit nos résultats dans notre fichier au format .txt.
Patron | Résultat depuis fichier TreeTagger | Résultat depuis fichier UDpipe |
---|---|---|
NOM-ADJ | resultat-france.udpipe | resultat-france.treetagger |
ADJ-NOM | resultat-france.udpipe | resultat-france.treetagger |
NOM-PREP-NOM-PREP | resultat-france.udpipe | resultat-france.treetagger |
VERB-DET-NOM | resultat-france.udpipe | resultat-france.treetagger |
NOM-PREP-NOM | resultat-france.udpipe | resultat-france.treetagger |
PREP-DET-NOM | resultat-france.udpipe | resultat-france.treetagger |
Relation | Résultat |
---|---|
objet | resultat |
Patron | Résultat depuis fichier TreeTagger | Résultat depuis fichier UDpipe |
---|---|---|
NOM-ADJ | resultat-europe.udpipe | resultat-europe.treetagger |
ADJ-NOM | resultat-europe.udpipe | resultat-europe.treetagger |
NOM-PREP-NOM-PREP | resultat-europe.udpipe | resultat-europe.treetagger |
VERB-DET-NOM | resultat-europe.udpipe | resultat-europe.treetagger |
NOM-PREP-NOM | resultat-europe.udpipe | resultat-europe.treetagger |
PREP-DET-NOM | resultat-europe.udpipe | resultat-europe.treetagger |
Relation | Résultat |
---|---|
objet | resultat |
Patron | Résultat depuis fichier TreeTagger | Résultat depuis fichier UDpipe |
---|---|---|
NOM-ADJ | resultat-international.udpipe | resultat-international.treetagger |
ADJ-NOM | resultat-international.udpipe | resultat-international.treetagger |
NOM-PREP-NOM-PREP | resultat-international.udpipe | resultat-international.treetagger |
VERB-DET-NOM | resultat-international.udpipe | resultat-international.treetagger |
NOM-PREP-NOM | resultat-international.udpipe | resultat-international.treetagger |
PREP-DET-NOM | resultat-international.udpipe | resultat-international.treetagger |
Relation | Résultat |
---|---|
objet | resultat |