Boîte à outils

BIENVENUE A LA BOÎTE A OUTILS

bao1
bao2
bao3
bao4

Ce site a été créé dans le cadre de notre cours de Projet encadré portant sur les BAO vus avec Messieurs Serge Fleury, Jean Michel Daube et Rachid Belmouhoub. Nous exposons sur ce site les travaux réalisés, les méthodes adoptées pour arriver aux résultats. Tout d'abord il faut collecter des données issues des des flux RSS du journal « Le Monde » de l'année 2014 que nous avons eu grâce à M. Fleury qui a écrit un programme pour les récupérer tous les 19h . En plus de ces données nous avions eu recours à un corpus test de 2012 qui était sous deux formats : XML et TXT

Par le biais d'une série de traitement du corpus, nous avons pu mettre en place ces Boîtes à Outils qui sont au nombre de 4 :

  • La Boîte à Outils 1 : Elle consiste à extraire des informations à partir des flux RSS et d'en faire des rubriques
  • La Boîte à Outils 2 : Elle sert à étiqueter ces informations collectées avec les logiciels Treetagger et Cordial.
  • La Boîte à Outils 3 : Elle permet d'extraire les patrons morphosyntaxiques à partir des résultats obtenus de la BàO2.
  • La Boîte à Outils 4 : C'est la visualisation sous forme de graphe des patrons morphosyntaxiques extraits de la BàO3.

La mise en œuvre de ces boites s'est fait par le biais de plusieurs programmes avec le langage Perl.


Perl (Practical Extraction and Report Language)

Crée par Lary Wall est un langage open source et semi-crypté et possède trois types de données de base que sont : SV (valeur scalaire), AV (valeur tableau) et HV (valeur hachage). Il permet de traiter des informations de type textuel. Prenant en charge les expressions régulières grâce à la fonction de recherche d'une chaîne (string machine) et de l'opérateur = ~ , on peut extraire des informations facilement. Il prend en charge plusieurs types de format que ça soit des documents structurés ou non structurés. Perl dispose d'une bibliothèque qu'il faut installer. Cette librairie est disponible gratuitement sur le site www.cpan.org


Flux RSS (Really Simple Syndication)

Voici une brève introduction sur RSS que nous avons extrait du site www.commentcamarche.net


Introduction au RSS

« Le standard RSS représente un moyen simple d'être tenu informé des nouveaux contenus d'un site web, sans avoir à le consulter. Le format « RSS » (traduisez « Really Simple Syndication ») permet ainsi de décrire de façon synthétique le contenu d'un site web, dans un fichier au format XML, afin de permettre son exploitation par des tiers. Le fichier RSS, appelé également flux RSS, canal RSS ou fil RSS, contenant les informations à diffuser, est maintenu à jour afin de constamment contenir les dernières informations à publier. Basiquement, un fil RSS est un fichier contenant le titre de l'information, une courte description et un lien vers une page décrivant plus en détail l'information. Cela permet à un site web de diffuser largement ses actualités tout en récupérant un grand nombre de visiteurs grâce au lien hypertexte permettant au lecteur de lire la suite de l'actualité en ligne. »

Nos Contacts

Master1 Traitement Automatique des Langues

  • FAMA DIOP
  • fama.diop@etud.sorbonne-nouvelle.fr

    diopfama14@gmail.com

  • YELLE KOOULIBALI
  • yelle.koulibali@etud.sorbonne-nouvelle.fr

    nicolekoulibali@yahoo.fr