#

Bonjour !

Vous trouverez sur ce site le travail effectué lors de ce deuxième semestre en Master 1 Traitement Automatique des Langues (PluriTAL) dans le cadre du cours Projet encadré 2 (dirigé par M. Serge FLEURY, M. Pierre MAGISTRY - année 2021-2022).

Les onglets ci-dessus vous mèneront directement aux boîtes à outils 1, 2, 3, 3bis et à l'exercice sur Padagraph.

Chaque exercice contient un lien menant au code (avec commande bash intégrée), et d'autres liens menant aux fichiers créés par le ou les scripts en sortie.



Bonne visite ! :)

Boîte à outil 1 : "extraction du texte"

Parcourir toute l'arborescence et extraire les contenus textuels de tous les fils (classement des textes extraits par rubrique).


Rubriques choisies :

Idées (3232) et Planète (3244) (je n'ai choisi que 2 rubriques car trop volumineux).


Résultats :

Cliquez ici pour voir le programme Perl commenté.

Cliquez ici pour voir le fichier de sortie XML (rubrique Idées).

Cliquez ici pour voir le fichier de sortie TXT (rubrique Idées).

Cliquez ici pour voir le fichier de sortie XML (rubrique Planète).

Cliquez ici pour voir le fichier de sortie TXT (rubrique Planète).



Cliquez sur le petit robot pour remonter !

Boîte à outil 3 : "extraction de patrons"

Recherche et extraction de termes sur les données étiquetées (les séquences NOM PREP NOM, NOM ADJ etc.)


Rubriques choisies :

Idées (3232) et Planète (3244).


Scripts :

Cliquez ici pour voir le programme Perl commenté.

Cliquez ici pour voir une requête XQuery (patron morpho-syntaxique : NOM ADJ).

Cliquez ici pour voir une requête XQuery (patron morpho-syntaxique : NOM PREP ADJ).

Cliquez ici pour voir une requête XQuery (patron morpho-syntaxique : NOM PREP NOM PREP).


Résultats du script Perl (pour la rubrique Idées) :

Cliquez ici pour voir le fichier de sortie TXT (patron morpho-syntaxique : NOM ADJ).

Cliquez ici pour voir le fichier de sortie TXT (patron morpho-syntaxique : NOM PREP ADJ).

Cliquez ici pour voir le fichier de sortie TXT (patron morpho-syntaxique : NOM PREP NOM PREP).


Résultats du script Perl (pour la rubrique Planète) :

Cliquez ici pour voir le fichier de sortie TXT (patron morpho-syntaxique : NOM ADJ).

Cliquez ici pour voir le fichier de sortie TXT (patron morpho-syntaxique : NOM PREP ADJ).

Cliquez ici pour voir le fichier de sortie TXT (patron morpho-syntaxique : NOM PREP NOM PREP).


Résultats de requêtes XQuery (pour la rubrique Idées uniquement) :

Cliquez ici pour voir le fichier de sortie TXT (patron morpho-syntaxique : NOM ADJ).

Cliquez ici pour voir le fichier de sortie TXT (patron morpho-syntaxique : NOM PREP ADJ).

Cliquez ici pour voir le fichier de sortie TXT (patron morpho-syntaxique : NOM PREP NOM PREP).



Cliquez sur le petit robot pour remonter !

Boîte à outil 3 bis : "extraction de patrons"

Recherche et extraction de relations de dépendances (cf. cours Documents Structurés).


Rubriques choisies :

Idées (3232) et Planète (3244).


Scripts :

Cliquez ici pour voir le programme Perl commenté (lancé avec les fichiers UDpipe transformés en XML (cf. BàO2)).


Résultats pour la rubrique Idées :

Cliquez ici pour voir le fichier de sortie TXT de la relation OBJ.

Cliquez ici pour voir le fichier de sortie TXT de la relation NSUBJ.


Résultats pour la rubrique Planète :

Cliquez ici pour voir le fichier de sortie TXT de la relation OBJ.

Cliquez ici pour voir le fichier de sortie TXT de la relation NSUBJ.



Cliquez sur le petit robot pour remonter !

Graphes de relations sur Padagraph

Recherche, extraction et visualisation de relations de dépendances (nsubj et obj).


Rubriques choisies :

Idées (3232) et Planète (3244).


Script :

Cliquez ici pour voir le programme Python commenté.


Résultats de test :

Cliquez ici pour voir le fichier de sortie CSV (relation OBJ - rubrique Idées).

Cliquez ici pour voir le fichier de sortie CSV (relation NSUBJ - rubrique Idées).

Cliquez ici pour voir le fichier de sortie CSV (relation OBJ - rubrique Planète).

Cliquez ici pour voir le fichier de sortie CSV (relation NSUBJ - rubrique Planète).


Visualisation sur Padagraph (pour la rubrique Idées uniquement) :


Capture vidéo des relations nsubj (5283 nodes and 7764 edges) :



Capture vidéo des relations obj (5214 nodes and 7907 edges) :



Cliquez sur le petit robot pour remonter !

Merci et à bientôt ! :)