Projet --BàO--

Cher.e.s visiteur.s, bien le bonjour,

Bienvenue sur notre site web conçu exclusivement pour le cours « Projet Encadré 2 » au cours du deuxième semestre du M1 TAL pour le projet BAO (boite à outils) sous la direction de M. Daube et M.Fleury.

Nous utilisons Perl comme langage de programmation développé par le linguiste NOM prénom. pour l'extraction terminologiques sur des données textuelles du fils RSS du journal le monde de l’année 2016 (RSS : C’est une application XML (structurer l’information dans un document électronique) mise en place pour signaler des mises à jour sur des sites est structurer des documents électroniques avec une grammaire et un vocabulaire.). Il s'agit du fil RSS du journal le monde, une archive à 300 MO, qui contient une arborescence classée en mois (janvier, février...etc.), rubrique ( Une, International...etc. ), etet 19H, l'heure d'aspiration (scrapping). Dans janvier par exemple, on trouve une pile de fichiers de différentes rubriques. En gros, un sacré répertoire de données massives à parcourir de manière automatique (c'est ce qu'on appelle : Mécanisme de parcours recurssif.)afin d’exploiter ce qui nous intéresse c’est-à-dire en choisissant uniquement les rubriques qui nous intéresse.

En effet, pour cela nous allons procéder en quatre étapes. Autrement dit, notre projet aura quatre boites à outils: Primo, l’extraction et le nettoyage des données textuelles avec Perl ou la boite à outils n°1 (BàO1) donnera naissance à deux fichiers dont un en xml et l’autre en texte brut (.txt). Secondo, l’étiquetage morphosyntaxique de ces données avec deux outils différents : Treetager sur le fameux Terminal en utilisant un programme Perl avec une durée minimale de deux ou trois heures pour une seule rubrique et Cordial avec une interface graphique, qui fonctionne uniquement sur un système windows et reste payant donc moins accessible. Bref, des inconvénient, il y en a mais on y va quand même car nous soumettons à Cordial les données en texte brut re-encodées en ISO-8854-1 et à TreeTagger la sortie XML.

Ensuite, l’extraction des patrons morphosyntaxiques de ces données textuelles pour une troisième BàO3.

Comment ?

Pour la sortie Treetager donc XML : nous utilisons un feuille de style XSL pour afficher ces patrons syntaxiques dans un navigateur (Mozzila, Safari…etc.) ou un programme Perl proposé par notre enseignant M. Fleury. Mais pour la sortie Cordial, nous allons nous baser sur un programme Perl qui prends en entrée le fichier (.cnr) de Cordial et un fichier paramètres (.txt) des patrons à extraire.

Enfin, une fois les trois BàO réalisés, nous procédons à l’affichage de ces patrons morphosyntaxiques extraits sous forme de graphe avec un programme (.exe) —-malheureusement windows uniquement— de M. Fleury.

Pourquoi ?

Car nous partons sur l’hypothèse qui consiste à dire qu’il y’a un usage sémantique particulier d’un mot dans un domaine complètement ou relativement différents. Pour notre part, nous avons choisis de travailler sur trois rubriques: Politique(0), international (3210), et Economie (3234) sur les patrons NOM-ADJ.

Dans ce site, on pourra trouver les scripts Perl, les données textuelles et patrons morphosyntaxiques extraits avec des illustrations en capture d’écran et quelques commentaires. Sur ce, bonne visite.