Boite à outils n°1

Avant de commencer cette partie du travail, vous devez vérifier que d'abord votre ordinateur contient tous les outils necéssaires au lancement des scripts perl. Tout d'abord vous devez d'abord vérifier si votre machine a la bonne version de perl. Il suffit de lancer à partir Perl 5.8. Il suffit donc de taper sur Terminal perl -v :

Nous allons faire l'extraction en 4 types d'extractions différentes avec 4 types d'outils : avec une expression régulière qui nécessite Unicode String, avec XML-RSS, XML-XPath et XML-libXML qui vous pouvez télécharger sur PPM. Il suffit de taper ppm sur Terminal.

Après ces vérifications, vous devez ensuite télécharger l'archive où vous pourrez tester les scripts. Cet archive comporte dans un moindre quantité les mêmes données. Ceci permettra que les scripts fonctionnent plus vite.

1) Extraction avec une expression régulière

Pour réaliser ce travai, lors du cours, nous avons établi différentes étapes qui nous aiderons obtenir au final la réalisation graphique des mots

Pour cette partie, je vais tout d'abord me servir d'un script "normal", c'est-à-dire d'un script avec tout simplement des expressions régulières.

Vous pouvez voir le script ici ou vous pouvez le voir ici.

On se sert tout d'abord de la commande dos2unix pour transformer les fichiers DOS/MAC à des textes UNIX
Ensuite, nous passons à la récupération de ce qui nous intéresse à l'intérieure en ouvrant le fichier avec la commande OPEN en se servant d'une expression régulière. On se sert ensuite de la commande WHILE pour parcourir le fichier.
On cherche ensuite l'encodage grâce à une autre expression régulière
On cherche ensuite la date grâce à une autre expression régulière
On peut alors passer à trouver les titres et leurs résumés.
Après, on peut désormais à la toute fin nettoyer le texte pour qu'ils ne se retrouvent pas parasités par des caractères indésirables.

2) Extraction avec l'outil XML-RSS

Cet outil permet de traiter les flux RSS, de les manipuler pour ensuite pouvoir exploiter les données extraites.

Vous pouvez voir le script ici ou vous pouvez le voir ici.

Tout d'abord, on se sert du premier script avec quelques différences. On peut tout d'abord le voir dans l'utiisation de l'outil XML-RSS téléchargé avec PMM
On crée l'objet XML::RSS très classique en Perl, il y a une structure de données complexe et on va créer une variable vide.
Ensuite, comme sur le script précedent, on récupère la date
Et puis finalement, on récupère les valeurs titre et résumé contenues dans la valeur items. On se sert aussi du nettoyage utilisé sur le script avec l'expression régulière.

3) Extraction avec l'outil Xpath

Xpath est un outil qui permet de parcourir les fichiers XML. Nous avons en effet utilisé cet outil lors du cours "Documents structurés" dans lequel nous avons interrogé les structures XML pour obrtenir un certain nombre des résultats. Nous allons donc nous servir de ce moyen d'interroger les fichiers XML pour obtenir les informations désirées.

Vous pouvez voir le script ici ou vous pouvez le voir ici.

Tout d'abord, nous allons expliciter (comme pour l'outil précedent) l'utilisation de l'outil dont il est question dans cette partie de l'exercice, c'est-à-dire, Xpath.
Nous créons alors ensuite un objet Xpath dans lequel nous pourrons stocker une liste de noeuds
Pour ensuite chercher dans ces noeuds, les noeuds correspondats au titre et au résumé, toujours en filtrant mes scories.

4) Extraction avec l'outil libXML

XML::libXML est un outil de parsing qui permet de manipuler certaines fonctionnalités XML.

Vous pouvez voir le script ici ou vous pouvez le voir ici.

Comme montré précedement, on doit d'abord montrer l'utilisation de cet outil
Nous créons alors initialiser l'objet dans lequel nous pourrons stocker une liste de noeuds
Pour ensuite chercher dans ces noeuds, les noeuds correspondats au titre et au résumé, toujours en filtrant mes scories.

Contact

Email :
Vous pouvez me joindre à tout moment par ici ou encore ici

Lien outils

TAL PARIS 3
Site où vous pouvez tout savoir sur le Traitement Automatique des Langues à la Sorbonne-Nouvelle
ATALA
Association pour le Traitement Automatique des Langues
PluriTAL
Site du master Ingénierie Linguistique

Travaux précedents

TAL Master S1
Master 1 2010-2011
TAL Licence 3
Licence 3 2009-2010

Projet encadré II

Matias Calderon

Boite à outils n°1

1) Extraction avec une expression régulière

2) Extraction avec l'outil XML-RSS

3) Extraction avec l'outil Xpath

4) Extraction avec l'outil libXML

Contact

Lien outils

Travaux précedents