Programmation et Projet Encadré 2

Lucas Elias Fonseca et Camille Fernandes

Boîte à Outils 1 et 2

Pour commencer notre parcours, nous avons créé un programme capable de parcourir l'arborescence des données, en extraire du texte d'un côté et de faire l'étiquetage POS (part of speech) automatiquement avec TreeTagger.


Parcourir l'arborescence:


D'abord nous avons proposé une procédure qu'on a appelé "parcoursarbborescencefichiers" :



Nous avons crée une liste vide qui sera remplie avec les noms des fichiers dans le dossier choisi. Après nettoyage de la liste, nous effectuons un test : si l'élément de la liste rencontré par le programme est un dossier, il se réapplique sur cette entrée, créant une recursivité. En revanche, si le programme trouve une entrée de type fichier, cette fois-ci, les traitements seront appliqués.


Nous ajoutons à ce code une procédure pour tagger automatiquement les entrées trouvées avec TreeTagger:


Pour chaque entrée de texte, celle-ci dans une liste, puis nous insérons des balises pour marquer sa position, puis nous générons les balises d'étiquetage avec le programme "treetagger.exe". Les marquations sont également passées de treetagger à XML avec le programme "treetagger2xml.exe".


Voici le code final obtenu :



Et voici les résultats obtenus:


Fichiers TXT :

Fichier 3208

Fichier 3210

Fichier 3224

Fichiers XML

Fichier 3208

Fichier 3210

Fichier 3224