Le projet boîte à outils à pour vocation de créer un environnement de travail permettant d'effectuer de multiples traitements sur des fichiers bruts (fils rss du monde d'une année).
Voilà les différentes étapes du projet :
BAO1 : L'extraction textuelle
Ici, le but sera de rendre compte de la structure des données brutes dans notre extraction. Elle se fera en .txt et en .xml.
BAO2 : Annotation morphosyntaxique
L'objet de la bao2 est de créer un corpus annoté à l'aide de deux parser, TreeTagger et UDpipe.
BAO3 : Extraction de données morphosyntaxiques
Ici, j'utiliserai l'annotation préalable pour extraire des patrons morphosyntaxiques et des relations de dépendance syntaxique.
BAO4 : Visualisation et interprétation
Enfin, j'utiliserai un outil permettant de rendre compte de relation syntaxique et des liens entre les token du corpus. Dans un but d'interprétation des données.