Ce site a pour but de montrer le traitement textuel semi-automatique effectué sur le corpus du 2017 des fils RSS du journal "Le Monde"
Le travail est divisé en 5 parties:
BAO1:graçe à un programme Perl on va parcourir toute l'arborescence du corpus et pour chaque rubrique chosie on aura un fichier .txt et un
fichier .xml contenants les contenus textuels de tous les titres et les descriptions des articles appartenants à la rubrique en question.
BAO2: on rajoute une subroutine "étiquetage" au programme Perl utilisé dans la BAO1. Cette subroutine permettra de produire un fichier
.xml étiqueté morphosyntaxiquement et un fichier .txt qui devra être étiqueté avec Cordial.
Les deux fichiers contiennent toujours tous les titres et les descriptions de la rubrique choisie.
BAO3: on procédra à l'extraction des patrons morphosyntaxiques à travers des programmes Perl, des
feuilles de styles XSLT et des requêtes XQuery.
BAO4: on utlisera les fichiers créés dans l'étape précédente pour créer des graphiques des mots.
Analyse: on analysera les différents résultats par rapport aux graphiques et aux différents système d'étiquetage.