Projet Encadré - Boîte à outils
Ce site est pour l'objectif de présenter notre projet - Boîte à outils. Nous avons travaillé sur un corpus composé des archives du journal le Monde de l'année 2016, ceci est donc un corpus d'entrée à traiter et à analyser.
Il s'agit de 4 étapes :
- Bao 1 : Extraction automatique des titres et des descriptions contenues dans des fils RSS, des fils RSS sous forme des fichiers textes bruts et des fichiers xml dans cette étape nous avons utilisé un script perl qui permet de parcourir une arborescence.
- Bao 2 : Etiquetage morphosyntaxique pour des textes extraits via un script écrit en perl.
- Bao 3 : Extraction des patrons morphosyntaxique souhaités, dans notre cas c'est une suite ''NOM ADJ''. Pour le faire, 2 méthodes sont possibles : le fichier de sortie sera réalisé par Treetagger et Cordial.
- Bao 4 : Visualisation des résultats sous forme graphique via le programme fourni par l'enseignant, et à partir de nos résultats, nous allons faire une analyse et comparer les résultats des deux méthodes employées .