Pour la réalisation de ce projet, nous avons utilisé plusieurs langages de programmation et logiciels, dont voici une briéve description.

 

XML

 

XML est un langage de balisage conçu pour le transfert et le stockage de données, les balises ayant le rôle de structurer ou de formater ces données1.

Ainsi, tout document XML peut être défini comme un ensemble d'objets de données, appelés noeuds, qui forment une structure arborescente (selon la recommandation DOM de W3C). Un noeud peut être une partie du document, soit un élément, un attribut ou du contenu textuel. Les noeuds se distinguent de l'élément unique de cette structure, appelé racine.   

 

Un exemple de fichier en format XML sont les fichiers RSS (Rich Site Summary ou Really Simple Siyndication), qui contiennent une description synthétique et le titre des pages d'un site web mises à jour. Ces informations sont transmises dans un flux ou un canal RSS et permettent une consultation rapide des dernières informations publiées sur un site web. Un lien vers le contenu complet de chaque page est aussi disponible.

 

XSL

 

XSL (eXtensible Stylesheet Language) est un langage utilisé pour la description de feuilles de styles dans lesquelles est définie la présentation d'un fichier XML.

 

Ce langage est composé de trois parties : XSLT - un langage qui permet la transformation d'un fichier XML dans un autre format, comme PDF ou HTML ; XPath - un langage abstrait qui utilise la syntaxe d'autres langages (XSLT, Javascript) pour réaliser l'adressage et la sélection d'objets XML dans un document. Etant donnée la structure arborescente des fichiers XML, les expressions XPath permettent d'identifier des noeuds XML.

 

PERL

 

Perl est un langage de programmation conçu pour le traitement de tout contenu textuel - ce qui le fait parfaitement compatible avec XML, qui contient des données textuelles.

 

Les Modules Perl sont des solutions de programmation, qu'on peut ajuster et personnaliser. Ils sont stockés dans l'archive CPAN (Comprehensive Perl Archive Network) de Perl.

 

Pour le traitement du contenu des fichiers XML, il existe des modules (appelés aussi "bibliothèques") spécifiques, associés à des PARSEURS (ou analyseurs). Les derniers ont le le rôle de parcourir fichiers XML, de les valider pour en extraire des données ou pour créer l'arbre de représentation.

 

En voici trois exemples : XML::XPath, XML::LibXML et XML::RSS, que nous avons utilisés dans notre travail.

 

Dans un script Perl, ces bibliothèques permettent d'abandonner l'utilisation des expressions régulières lors de l'extraction de données.

 

TreeTagger

 

TreeTagger est un outil d'annotation syntaxique et de lemmatisation, créé par Helmut Schimd de l'Université de Stuttgart (Allemagne).

 

L'annotation consiste à associer à chaque mot d'un texte une étiquette avec sa catégorie morpho-syntaxique correpondante.

 

La lemmatisation consiste à associer le lemme de chaque mot (c'est-à-dire, la forme graphique choisie conventionnellement comme adresse dans un lexique, cf. Trésor http://www.cnrtl.fr/definition/lemme).

 

Cordial

 

Cordial est un outil de correction orthographique et d'annotation morpho-syntaxique, créé par Synapse Développement de Toulouse (France).

 

Le Trameur

 

Le Trameur est un outils textométrique doté de fonctionnalités documentaires (ex. concordancier) et statistiques (ex. calcul de cooccurrents, analyse factorielle des correspondances, calcul de spécificité, construction de graphes à partir de mots-pôles).

 

 

 

----------------------

(2009:GOLDBERG)