Boite à outils n°3

Dans cette partie de la boîte à outils, nous allons nous servir des fichiers obtenus lors de la boîte à outils °2 pour obtenir des patrons syntaxiques que nous désirons analyser. Ici nous allons analyser le nom suivi d'un adjectif, par un autre nom ou encore par une préposition et par un autre nom. Ainsi :

Nous allons nous servir du fichier brut .txt obtenu grâce à CORDIAL pour trouver un sorti un fichier .txt avec les catégories qu'on désire.

Ensuite, on va se servir de la bibliothèque XPATH téléchargé précedemment lors de la BàO°1 sur les fichiers XML obtenus grâce à Treetagger.

Pour finir, nous allons nous servir d'une feuille de style XSLT avec des chemins Xpath pour avoir des fichiers XML avec les patrons stylisés.

1) Option avec les données Cordial

Le script a été très peu changé de celui qui a été proposé par les professeurs. On ne va que signaler les changements.

Tout d'abord l'ouverture du fichier qui a été modifié pour prendre en compte le nom de la rubrique et les patrons qui seront pris en compte. Ces lignes sont donc à changer tout dépedant de vos propres fichiers. On a lancé l'ouverture de ce dit fichier.
Et donc comme le début a été modifié lors de l'ouverture des fichiers, il est donc important de fermer les fichiers.

Cliquez ici pour voir le résultat par exemple pour la rubrique CINEMA avec les patrons NOM-ADJ.
Cliquez ici pour voir le résultat par exemple pour la rubrique CULTURE avec les patrons NOM-NOM.
Cliquez ici pour voir le résultat par exemple pour la rubrique MEDIAS avec les patrons NOM-PREP-NOM.
Cliquez ici si vous voulez télécharger le script ou encore pour le voir ici

Cliquez ici si vous voulez télécharger les resultats pour tous les fichiers accompagnés des traitements à réaliser.

2) Option avec les données Treetagger et la bibliothèque XML::PATH

Cette option nous permet lors d'un script perl d'utiliser la bibliothèque XML::path qu'on a utilisé lors de la BàO °1.
Cliquez ici pour consulter ce script ou ici pour le voir.
On lance le script accompagné d'un autre fichier avec les motifs que vous souhaitez trouver. Ce fichier contiendra donc les patrons désires affichés comme ceci NOM ADJ, NOM PREP NOM , ou encore NOM NOM. Mais en lançant ce fichier sur un fichier, on peut constanter que ce script fonctionne assez lentement. Alors si ce script est lent avec un fichier test comportant 1% du corpus totale, on peut malheureusement espérer qu'il beug sur des fichiers plus gros.
Vous pouvez consulter les résultats pour nos fichiers test ici pour les patrons NOM-ADJ, ici pour les patrons NOM-NOM ou encore ici pour les patrons NOM-PREP-NOM.
Mais comme on a pu le deviner, en effet, cette solution ne se revèle pas efficace lors du traitement des fichiers plus gros et même que lorsqu'on décidait de diviser le fichier en 10 et donc de prendre 10% de chaque fichier pour le faire analyser, le traitement était inefficace. Face à la grande quantité de travail, qu'il aurait fallu fournir, on a décidé de laisser tomber cette solution qui nous ferait perdre une grande quantité de temps alors que d'autres solutions pourrait être plus efficaces comme l'a démontré la solution avec le texte brut obtenu grâce à CORDIAL.

3) Option avec les données Treetagger et XSLT

Nous allons nous servir d'un certain nombre de ressources pour utiliser cette option. Nous allons d'abord tout d'abord nous servir d'un feuille de style en .XSL qui grâce à des options XPATH, nous permettra d'obtenir les patrons syntaxiques qui nous intéressent. Pour enregitrer les patrons syntaxiques obtenus, nous allons nous servir de la fonctionnalité XLSTPROC, utilisable directement sous la plataforme unix et installé par défaut sous toutes les machines avec unix ou cygwin. Ainsi chaque patron recherché aura sa propre feuille de style.

NOM-ADJ

Vous pouvez télécharger la feuille de style ici.

Cette feuille de style se compose des trois composantes. Tout d'abord, ce fichier doit avoir les composantes du code HTML, pour que lors du lancement de la fonctionnalité XSLTproc, on puisse obtenir un fichier HTML déjà en forme. Une manière de reproduire ce qu'un navigateur pourrait le faire lors de la lecture d'un fichier XML.
Ensuite, l'autre composante assez importante est la présence du chemin XML. Ainsi on peut ensuite introduire les composantes XPath. Il est donc impératif d'adapter cette partie, à la composante particulière de vos propres fichiers .XML obtenus lors de la BàO n°2.
On peut alors introduire les composantes Xpath pour ensuite retrouver les patrons qui nous intéressent. Ainsi on cherche un patron NOM qui est directement suivi par un ADJ et inversement un patron ADJ précedé par un NOM.
On peut alors tester ceci sur notre fichier essai contenant 1% du fichier final. XSLTproc fonctionne comme ceci :
On obtient donc un fichier HTML que vous pouvez ouvrir en cliquant ici
Il suffit donc maintenant de changer la feuille de style et d'enlever tout le code correspondant au code HTML et puis sur xsltproc de changer l'extension finale par .txt. Vous pouvez consulter la nouvelle feuille ici.
Cependant au moment de lancer le script sur la totalité des fichiers, on a rencontré la même difficulté que lors de la 2ème option. On a tout de même réussi à lancer le script lors que les fichiers faisaient moins de 5mo. On a donc du diviser les fichiers par 10 chacun et ensuite lancer les scripts. Face donc à la quantité de travail, nous allons donc diviser qu'un seul fichier, le fichier "SPORT" qui correspond au plus gros fichier. Cette décision a été prise face à l'étendue du travail réalisé avec un seul fichier, en effet, un seul fichier a pris 2h à être découpé, analysé et repertorié.
Vous pouvez télécharger les fichiers .txt obtenus lors du script sur les fichiers du gros fichier "SPORT" ici.

NOM-NOM

Vous pouvez télécharger la feuille de style ici.

Cette feuille se compose exactement de la même manière que la feuille NOM-ADJ, à part qu'il faut changer les patrons syntaxiques recherchés.
On peut alors tester ceci sur notre fichier essai contenant 1% du fichier final. XSLTproc fonctionne comme ceci :
On obtient donc un fichier HTML que vous pouvez ouvrir en cliquant ici
Comment avec les patrons précedents, il suffit alors d'éliminer les composantes HTML pour donner un fichier .txt que vous pouvez voir ici.
La même difficulté se présente aussi pour le fichier alors vous pouvez télécharger les fichiers .txt obtenus lors du script sur les fichiers du gros fichier "SPORT" ici.

NOM-PREP-NOM

Vous pouvez télécharger la feuille de style ici.

Cette feuille de style se compose de deux composantes un peu différentes de deux précedentes du au fait qu'on cherche un patron syntaxique supplémentaire. Ainsi nous devons spécifier que deux parties du chemin à faire.
Et lors de l'introduction des composantes XPATH, on doit faire quelques changements. En effet, on doit mettre que "IF" pour ainsi trouver les différentes chemins. Si on trouver un nom et ensuite si on trouve un préposition alors prendre le nom suivant aussi.
On peut alors tester ceci sur notre fichier essai contenant 1% du fichier final. XSLTproc fonctionne comme ceci :
On obtient donc un fichier HTML que vous pouvez ouvrir en cliquant ici
Il suffit donc maintenant de changer la feuille de style et d'enlever tout le code correspondant au code HTML et puis sur xsltproc de changer l'extension finale par .txt. Vous pouvez consulter la nouvelle feuille ici.
En vue des difficultés déjà expliquées, vous pouvez télécharger les fichiers .txt obtenus lors du script sur les fichiers du gros fichier "SPORT" ici.

Contact

Email :
Vous pouvez me joindre à tout moment par ici ou encore ici

Lien outils

TAL PARIS 3
Site où vous pouvez tout savoir sur le Traitement Automatique des Langues à la Sorbonne-Nouvelle
ATALA
Association pour le Traitement Automatique des Langues
PluriTAL
Site du master Ingénierie Linguistique

Travaux précedents

TAL Master S1
Master 1 2010-2011
TAL Licence 3
Licence 3 2009-2010

Projet encadré II

Matias Calderon

Boite à outils n°3

1) Option avec les données Cordial

2) Option avec les données Treetagger et la bibliothèque XML::PATH

3) Option avec les données Treetagger et XSLT

NOM-ADJ

NOM-NOM

NOM-PREP-NOM

Contact

Lien outils

Travaux précedents