Vous trouverez sur ce site le travail effectué lors de ce deuxième semestre en Master 1 Traitement Automatique des Langues (PluriTAL) dans le cadre du cours Projet encadré 2 (dirigé par M. Serge FLEURY, M. Pierre MAGISTRY - année 2021-2022).
Les onglets ci-dessus vous mèneront directement aux boîtes à outils 1, 2, 3, 3bis et à l'exercice sur Padagraph.
Chaque exercice contient un lien menant au code (avec commande bash intégrée), et d'autres liens menant aux fichiers créés par le ou les scripts en sortie.
Parcourir toute l'arborescence et extraire les contenus textuels de tous les fils (classement des textes extraits par rubrique).
Rubriques choisies :
Idées (3232) et Planète (3244) (je n'ai choisi que 2 rubriques car trop volumineux).
Résultats :
Cliquez ici pour voir le programme Perl commenté.
Cliquez ici pour voir le fichier de sortie XML (rubrique Idées).
Cliquez ici pour voir le fichier de sortie TXT (rubrique Idées).
Cliquez ici pour voir le fichier de sortie XML (rubrique Planète).
Cliquez ici pour voir le fichier de sortie TXT (rubrique Planète).
Les contenus textuels extraits doivent être étiquetés automatiquement (Treetagger et UDpipe : annotation en morpho-syntaxe et en dépendances).
Rubriques choisies :
Idées (3232) et Planète (3244).
Scripts :
Cliquez ici pour voir le programme Perl commenté.
Cliquez ici pour voir le programme "tokenise-utf8.pl" (utilisé dans le programme Perl).
Cliquez ici pour voir le programme "treetagger2xml-utf8.pl" (utilisé dans le programme Perl).
Résultats pour la rubrique Idées :
Cliquez ici pour voir le fichier de sortie TXT.
Cliquez ici pour voir le fichier de sortie XML TreeTagger.
Cliquez ici pour voir le fichier de sortie CONLL UDpipe.
Cliquez ici pour voir le fichier de sortie XML obtenu après transformation du fichier CONLL UDpipe.
Résultats pour la rubrique Planète :
Cliquez ici pour voir le fichier de sortie TXT.
Cliquez ici pour voir le fichier de sortie XML TreeTagger.
Cliquez ici pour voir le fichier de sortie CONLL UDpipe.
Cliquez ici pour voir le fichier de sortie XML obtenu après transformation du fichier CONLL UDpipe.
Recherche et extraction de termes sur les données étiquetées (les séquences NOM PREP NOM, NOM ADJ etc.)
Rubriques choisies :
Idées (3232) et Planète (3244).
Scripts :
Cliquez ici pour voir le programme Perl commenté.
Cliquez ici pour voir une requête XQuery (patron morpho-syntaxique : NOM ADJ).
Cliquez ici pour voir une requête XQuery (patron morpho-syntaxique : NOM PREP ADJ).
Cliquez ici pour voir une requête XQuery (patron morpho-syntaxique : NOM PREP NOM PREP).
Résultats du script Perl (pour la rubrique Idées) :
Cliquez ici pour voir le fichier de sortie TXT (patron morpho-syntaxique : NOM ADJ).
Cliquez ici pour voir le fichier de sortie TXT (patron morpho-syntaxique : NOM PREP ADJ).
Cliquez ici pour voir le fichier de sortie TXT (patron morpho-syntaxique : NOM PREP NOM PREP).
Résultats du script Perl (pour la rubrique Planète) :
Cliquez ici pour voir le fichier de sortie TXT (patron morpho-syntaxique : NOM ADJ).
Cliquez ici pour voir le fichier de sortie TXT (patron morpho-syntaxique : NOM PREP ADJ).
Cliquez ici pour voir le fichier de sortie TXT (patron morpho-syntaxique : NOM PREP NOM PREP).
Résultats de requêtes XQuery (pour la rubrique Idées uniquement) :
Cliquez ici pour voir le fichier de sortie TXT (patron morpho-syntaxique : NOM ADJ).
Cliquez ici pour voir le fichier de sortie TXT (patron morpho-syntaxique : NOM PREP ADJ).
Cliquez ici pour voir le fichier de sortie TXT (patron morpho-syntaxique : NOM PREP NOM PREP).
Recherche et extraction de relations de dépendances (cf. cours Documents Structurés).
Rubriques choisies :
Idées (3232) et Planète (3244).
Scripts :
Résultats pour la rubrique Idées :
Cliquez ici pour voir le fichier de sortie TXT de la relation OBJ.
Cliquez ici pour voir le fichier de sortie TXT de la relation NSUBJ.
Résultats pour la rubrique Planète :
Cliquez ici pour voir le fichier de sortie TXT de la relation OBJ.
Cliquez ici pour voir le fichier de sortie TXT de la relation NSUBJ.
Recherche, extraction et visualisation de relations de dépendances (nsubj et obj).
Rubriques choisies :
Idées (3232) et Planète (3244).
Script :
Cliquez ici pour voir le programme Python commenté.
Résultats de test :
Cliquez ici pour voir le fichier de sortie CSV (relation OBJ - rubrique Idées).
Cliquez ici pour voir le fichier de sortie CSV (relation NSUBJ - rubrique Idées).
Cliquez ici pour voir le fichier de sortie CSV (relation OBJ - rubrique Planète).
Cliquez ici pour voir le fichier de sortie CSV (relation NSUBJ - rubrique Planète).
Visualisation sur Padagraph (pour la rubrique Idées uniquement) :
Capture vidéo des relations nsubj (5283 nodes and 7764 edges) :
Capture vidéo des relations obj (5214 nodes and 7907 edges) :