Le projet "Boîtes à outils"

>__Ce projet s'appuie sur un nombre important de données, en effet notre corpus est composé dans l'ensemble des fils RSS du journal Le Monde de l'année 2016. Qu’est-ce qu’un fil RSS ? Il s’agit d’un format appelé « RSS » qui veut dire: « Really Simple Syndication ». Autrement dit c’est un format qui permet de décrire de façon synthétique le contenu d’un site web, dans un fichier au format XML, afin de permettre son exploitation par des tiers. Le fichier RSS est également appelé flux RSS, canal RSS ou fil RSS. Ce fichier contenant les informations à diffuser, est maintenu à jour afin de constamment contenir les dernières informations à publier. Un fichier RSS contient : le titre de l’information, une courte description et un lien vers une page décrivant plus en détail l’information. Cela permet à un site web de diffuser largement ses actualités tout en récupérant un grand nombre de visiteurs grâce au lien hypertexte permettant au lecteur de lire la suite de l’actualité en ligne. Pour notre corpus chaque fils de chaque rubrique à été extrait durant chaque jour de chaque mois. Ainsi chaque fil RSS est unique et correspond à un petite portion d'information correspondant à l'actualité de chaque rubrique. Voici donc notre corpus que nous allons appeler "Arborescence 2016".

>__A partir de ce corpus il s'agissait de parcourir dans un premier temps l'ensemble de cette arborescence afin d'extraire le contenu le plus interessant, c'est à dire l'information elle-même et non les données qui gravitent autour. Cette première étape est donc la Boîte à outils n°1 que vous pouvez consulter à la deuxième page de ce site.

>__La seconde étape consistait à étiqueter les deux sorties produites par le premier script de la Boîte à outils n°1 qui étaient aux formats XML et TXT. Pour ce faire nous avons modifier le premier script pour qu'il puisse étiqueter tous les fichiers XML et non les fichiers TXT dans la mesure où ces derniers seront traités par Cordial. Cette étape se trouve donc également à la deuxième page de ce site.

>__La troisième étape consistait à extraire des patrons morphosyntaxiques à partir de la sortie de la deuxième étape de la boîte à outils n°1 (soit à partir des fichiers étiquetés par Tree Tagger et par Cordial). Cette extraction peut se faire de manière différente en fonction de l'outil utilisé: Cordial ou Tree tagger.


>__Enfin, la quatrième et dernière étape consistait à extraire des patrons à partir d'un motif lexical que nous avions choisis sur des rubriques de notre choix. Cette extraction s'est faite avec un exécutable qui nous a permis de visualiser à travers des graphes les mots qui s'attirait le plus autrement dit les coocurents liés à notre motif lexical.


>>__Je vous souhaite une agréable visite !