Programmation et projet encadré 2

BAO2 -- étiquetage du texte

À l'issue de la 'boîte à outil 1' qui est l'extraction des informations textuels des rubriques, on arrive à une étape de l'étiquetage morpho-syntaxique. Les contenus textuels extraits doivent être étiquétés automatiquement par Treetagger et Talismane dans ce projet.

TreeTagger

Vu que TreeTagger est choisi dans ce cours pour réaliser l'étiquetage, il convient de savoir l'information général sur cet outil. TreeTagger est un outil qui permet d'annoter un texte avec des informations sur les parties du discours et des informations de lemmatisation. Il a été développé par Helmut Schmid dans le cadre du projet 《TC》. TreeTagger permet l'étiquetage de l'Allemand, l'Anglais, le Français, l'Italien, le Deutch, l'Espagnol, le Bulgare, Le Russe, le Grec, le Portuguais, le chinois et les textes français anciens.

Pour automatiser l'annotation par Treetagger, on va intégrer dans notre script Perl un sous-programme qui applique un traitement d'étiquetage sur chacun des fichiers.

Donc, on reprend le scrip écrit lors du phase de la Boîte à Outil 1. On créé le sous-programme 'etiquetage' et il prend deux variables qui sont 'titre' et 'description'. Ensuite, on ajoute les commandes comme ce qu'on fait sur la ligne de commande en ajoutant la fonction de perl 'system'.

Le script finale pour boîte à outil 2 est disponible ci-dessous, veuillez cliquez:

Les résultats de Treetagger en format XML sont disponibles ci-dessous, veuillez cliquez:

(vu qu'il s'agit un gros fichier xml, l'ouverture sera très longue... )

Talismane

Talismane est le deuxième outil en ce cours afin d'étiqueter nos textes. Talismane est un analyseur syntaxique dévéloppé par Assaf Urieli dans le cadre de sa thèse au sein du laboratoire CLLE-ERSS, sous la direction de Ludovic Tanguy. Il est écrit intégralement en Java : il fonctionne donc sur tous les systèmes d'exploitation et est facilement intégrable à d'autres applications.

Pour passer d'un texte brut à un réseau de dépendances syntaxiques, Talismane utilise une analyse en cascade avec quatre étapes classiques pour ce type de tâche : le découpage en phrases, la segmentation en mots, l'étiquetage (attribution d'une catégorie morphosyntaxique), et le parsing (repérage et étiquetage des dépendances syntaxiques entre les mots).

Afin d'annoter les titres et les descriptions par Talismane, on sauvegarde les informations dans une variable '$titredescriptionglobal'. Ensuite, on lance le Talismane. Vu que il peut être lancé dans un terminal, il suffit d'ajouter la commande dans le script Perl en ajoutant la fonction 'system'.

Les résultats de Talismane sont disponibles ci-dessous, veuillez cliquez: