Ce site a été créé dans le cadre de notre cours de Projet encadré portant sur les BAO vus avec Messieurs Serge Fleury, Jean Michel Daube et Rachid Belmouhoub. Nous exposons sur ce site les travaux réalisés, les méthodes adoptées pour arriver aux résultats. Tout d'abord il faut collecter des données issues des des flux RSS du journal « Le Monde » de l'année 2014 que nous avons eu grâce à M. Fleury qui a écrit un programme pour les récupérer tous les 19h . En plus de ces données nous avions eu recours à un corpus test de 2012 qui était sous deux formats : XML et TXT
Par le biais d'une série de traitement du corpus, nous avons pu mettre en place ces Boîtes à Outils qui sont au nombre de 4 :
La mise en œuvre de ces boites s'est fait par le biais de plusieurs programmes avec le langage Perl.
Crée par Lary Wall est un langage open source et semi-crypté et possède trois types de données de base que sont : SV (valeur scalaire), AV (valeur tableau) et HV (valeur hachage). Il permet de traiter des informations de type textuel. Prenant en charge les expressions régulières grâce à la fonction de recherche d'une chaîne (string machine) et de l'opérateur = ~ , on peut extraire des informations facilement. Il prend en charge plusieurs types de format que ça soit des documents structurés ou non structurés. Perl dispose d'une bibliothèque qu'il faut installer. Cette librairie est disponible gratuitement sur le site www.cpan.org
Voici une brève introduction sur RSS que nous avons extrait du site www.commentcamarche.net
« Le standard RSS représente un moyen simple d'être tenu informé des nouveaux contenus d'un site web, sans avoir à le consulter. Le format « RSS » (traduisez « Really Simple Syndication ») permet ainsi de décrire de façon synthétique le contenu d'un site web, dans un fichier au format XML, afin de permettre son exploitation par des tiers. Le fichier RSS, appelé également flux RSS, canal RSS ou fil RSS, contenant les informations à diffuser, est maintenu à jour afin de constamment contenir les dernières informations à publier. Basiquement, un fil RSS est un fichier contenant le titre de l'information, une courte description et un lien vers une page décrivant plus en détail l'information. Cela permet à un site web de diffuser largement ses actualités tout en récupérant un grand nombre de visiteurs grâce au lien hypertexte permettant au lecteur de lire la suite de l'actualité en ligne. »
Master1 Traitement Automatique des Langues
fama.diop@etud.sorbonne-nouvelle.fr
diopfama14@gmail.com
yelle.koulibali@etud.sorbonne-nouvelle.fr
nicolekoulibali@yahoo.fr