Conclusion

Lors de ce projet, nous avons pu découvrir et nous familiariser avec le langage Perl et comprendre comment parcourir une arborescence entière afin de traiter chaque fichier. Nous avons pu par ailleurs utiliser deux étiqueteurs différents qui nous seront utiles pour d'autres projets par la suite. Nous avons consacré une très grande partie du semestre à l'élaboration des deux premières boîtes à outils (extraction et étiquetage de données textuelles) puisqu'elles s'avèrent être primordiales pour ce projet. Nous avons pu également comparer la performance des deux étiqueteurs et se rendre compte que tout le projet reposait en réalité sur ces étiquetages. Si nos données étaient mal étiquetées à certains endroits, nous pouvions obtenir des terminologies faussées ou incomplètes. Enfin, nous avons pu tester différentes manières d'extraire des patrons morphosyntaxiques et nous nous sommes alors rendu compte qu'il était très important de maîtriser les structures XML en raison de l'efficacité de la méthode XQuery par exemple.

A la fin de ce projet, nous avons pu nous amuser à regarder le contenu de nos extractions par rubrique grâce à des graphes et nous avons pu voir que la rubrique "Médias" ne contenait pas beaucoup de choses intéressantes. Les rubriques "International" et "Planète", quant à elles, nous offrent une vraie terminologie intéressante et exploitable.