Boîte à Outils - Master 1 PluriTAL - Programmation et projet encadré

BAO2

Cette étape consiste à effectuer, à partir de fichiers textes préalablement obtenus, un étiquetage morpho-syntaxique. Ce dernier repose alors sur la segmentation en mots et en phrases effectuée précédemment. Il s'agit d'associer une étiquette morpho-syntaxique à chaque mot, c'est-à-dire identifier pour chaque mot sa classe morphosyntaxique à partir de son contexte (genre, nombre, temps..). Pour ce faire, je me fond à utiliser deux étiqueteurs morpho-syntaxiques, Cordial et TreeTagger.

Étiquetage avec Cordial

Cordial est un correcteur grammatical et étiqueteur morpho-syntaxique développé par Synapse Développement, un éditeur de logiciels, spécialisé dans la linguistique informatique. Le programme ne peut pas être piloté en ligne de commande, il a fallu utiliser l'interface graphique pour lancer l'étiquetage. Cette technologie permet d'obtenir, à partir d'un texte donné en Ascii Unicode, une sortie texte fournissant pour chacun des mots du texte son lemme et sa catégorie grammaticale. Il a fallu aussi, avant d'importer le fichier texte, convertir ses caractères encodés UTF-8, en ISO-8859-1. Pour ce faire, je me suis basée sur iconv, un utilitaire permettant de modifier l'encodage des fichiers texte.

La taille du fichier texte importé ne doit pas dépasser, au moins, 1500 Ko. Si le fichier est volumineux, le programme se bloque et l'étiquetage s'arrête. Il semble donc que soit la taille du fichier soit les caractères spéciaux qui gênent l'avancement du programme. Il faut, dans ce cas, couper le fichier texte en parties, repérer le caractère qui pose problème, puis le supprimer. Après avoir lancé l'étiquatage, une boîte de dialogue s'affiche et propose de régler les paramètres de l'étiquetage.

Résultats

Les unités documentaires obtenues sont au format CNR. Le programme fournie, pour chaque forme, son lemme et sa catégorie grammaticale.

Résultat_Cordial_Culture

Résultat_Cordial_Europe

Étiquetage avec TreeTagger

TreeTagger est un étiqueteur grammatical fondé sur l'algorithme de Helmut Schmid. L'étiqueteur se base sur une approche probabiliste pour déterminer les catégories morpho-syntaxiques des tokens d'un texte, suite à des entraînements appropriés. A l’heure actuelle, plusieurs versions bien développées existent pour différentes langues. L'outil permet d'annoter un texte avec des informations sur les parties du discours (genre de mots) et des informations de lemmatisation. Permettant de segmenter automatiquement un texte et de déterminer les catégories morpho-syntaxiques des mots le composant, TreeTagger intègre trois grandes techniques: la legmentation, la catégorisation et la lemmatisation.

À partir du script fourni, j'ai procédé à des modifications pour intègrer la procédure qui appelle TreeTagger. Le script prend en argument le répertoire contenant le fichier paramètre et le texte à étiqueter et produit en sortie trois fichiers temporaires créés par le programme pour y stocker des informations qui ne sont utiles que pendant sa durée d'exécution et un fichier intitulé SORTIE_Treetagger_Europe.xml contenant l'étiquetage du corpus (rubrique Europe) au format XML. TreeTagger est un programme qui ne possède pas d’interface graphique, il est invoqué depuis un interprète de commandes, donc intégrable dans un script. La commande d’étiquetage CLASSIQUE avec TreeTagger est la suivante: