BaO 3 -1 | Perl
Objectif :
L’objectif de cette troisième boîte à outils est de parcourir les fichiers étiquetés par TreeTagger et UdPipe générés lors de la BàO2 et d'en extraire des patrons morpho-syntaxiques via différentes méthodes de traitement automatique. Ici nous utiliserons la méthode Perl.
Perl est un langage de programmation créé par Larry Wall en 1987 pour traiter facilement de l'information de type textuel. C'est un langage interprété, polyvalent, et particulièrement adapté au traitement et à la manipulation de fichiers textes, notamment du fait de l'intégration des expressions régulières dans la syntaxe même du langage.
Les 4 patrons morpho-syntaxiques à extraire obligatoires sont les suivants :
- NOM PREP NOM PREP
- VERBE DET NOM
- NOM ADJ
- ADJ NOM
Les 2 patrons morpho-syntaxiques choisis par nos soins sont les suivants :
- NOM PREP ADJ
- PREP DET NOM
Voici le script en Perl
Script PerlRésultats :
Rubrique | ADJ NOM | NOM ADJ | NOM PREP ADJ | NOM PREP NOM PREP | PREP DET NOM | VERBE DET NOM |
---|---|---|---|---|---|---|
A la une (3208) | sortie | sortie | sortie | sortie | sortie | sortie |
Société (3224) | sortie | sortie | sortie | sortie | sortie | sortie |
Culture (3246) | sortie | sortie | sortie | sortie | sortie | sortie |
Cinéma (3476) | sortie | sortie | sortie | sortie | sortie | sortie |
La relation de dépendance à extraire est la relation 'obj' :
Voici le script en Perl
Script PerlRubrique | OBJ |
---|---|
A la une (3208) | sortie |
Société (3224) | sortie |
Culture (3246) | sortie |
Cinéma (3476) | sortie |