La Boîte à Outils

Cette dernière étape du projet consiste à analyser les extractions des patrons par le biais d'un outil textométrique. Pour ce faire, nous utilisons un outil mis en oeuvre par S.FLEURY, intitulé patron2graphe.exe (intégré par ailleurs dans Le Trameur, logiciel créé par S.FLEURY, que nous avons déjà vu au premier semestre). Le but est de consituer un graphe avec les formes correspondantes aux patrons.

Pour utiliser le logiciel, il faut être sous Windouws, et utiliser le shell Windows et non Cygwin. Il faut ensuite taper la commande suivante : patron2graphe.exe +encodage du fichier d'entrée +nom du fichier d'entrée (bao3), à savoir, par exemple :

patron2graphe.exe "utf-8" res_extract-NOM_ADJ.txt

Nous avons commencé par composer cette commande pour voir le résultat. Le fichier d'entrée correspond au résultat des patrons NOM ADJ et de la rubrique VOYAGE. Nous obtenons un graphe propre mais peu lisible :

Graphe complet des patrons NOM ADJ à partir de la rubrique VOYAGE

Ce résultat n'a pas tellement d'intérêt car il dispose les termes les uns à côté des autres... autant les lire dans nos fichiers d'entrée ! Mais nous pouvons approfondir la requête afin d'analyser notre extraction plus finement, en proposant un motif. Ce dernier doit être inscrit dans un fichier TXT à part, comme ceci : MOTIF=motif, et peut être en forme d'expression régulière. Il faut donner ce fichier en dernier paramètre de la commande. Voici la commande que nous avons rédigée dans le shell Windows :

patron2graphe.exe "utf-8" res_extract-NOM_ADJ-VOYAGE.txt motifgraphe.txt

Nous avons tout d'abord lancé cette commande avec les fichiers provenant de la rubrique VOYAGE. Mais celle-ci étant peu importante (c'est la plus petite de toutes), nous avons finalement décidé de travailler sur la rubrique TECHONOLOGIES. Nous avons choisi le motif "internet" et avons observé le résultat avec les patrons NOM PRP NOM. Voici ce que cela donne :

Graphe des patrons NOM NOM à partir de la rubrique TECHNOLOGIES et le motif 'internet'

Le résultat est bien plus lisible. Nous remarquons qu'autour de notre motif, nous retrouvons des termes propres à la sécurité : "sécurité", "risque", "Surveillance". Nous avons continué les manipulations en changeant le motif.

Nous avons essayé avec "programme" :

Graphe des patrons NOM PRP NOM à partir de la rubrique TECHNOLOGIES et le motif 'programme'

Le logiciel nous donne en retour d'autres termes du types "programmeur", "programmeurs", etc. Bien sûr, la polysémie de ce motif est visible ici : "programmeur" provient du métier de l'informatique, "programme" peut venir d'un choix politique (il est question de scandale, cela soulève donc une ambiguïté difficile à éllucider hors contexte), ou d'un programme informatique. Nous retrouvons l'idée de sécurité ("défense", "surveillance", "espionnage"), puis quelques termes propres au monde de l'entreprise ("financement", "directeur", "rachat").

Nous avons ensuite vu ce que cela donnait avec le motif "téléphone" :

Graphe des patrons NOM PRP NOM à partir de la rubrique TECHNOLOGIES et le motif 'téléphone'

Nous remarquons des termes propres à une description d'un produit : "écran", "design", "interface", correspondants probablement à la communication autour d'un nouveau téléphone, notamment pour le graphe qui concerne le déterminant "des". Mais nous voyons surtout des termes plus généraux sur les entreprises : "filiale", "groupe", "activité", "milliard", etc, gravitant principalement autour de la préposition "de".

Nous avons ensuite décidé de travailler avec la rubrique CULTURE et le patron NOM ADJ. Nous avons en premier lieu choisi le motif "musée" et avons tapé la commande suivante :

patron2graphe.exe "utf-8" res_extract-NOM_ADJ-CULTURE.txt motifgraphe.txt

Voici le résultat :

Graphe des patrons NOM ADJ à partir de la rubrique CULTURE et le motif 'musée'

Nous obtenons un graphe régulier, sur lequel nous voyons très clairement les adjectifs correspondants à notre motif. Globalement, il s'agit d'adjectifs de provenance : "parisien", "français", "new-yorkais".

Nous avons ensuite proposé le motif éponyme "culture" :

Graphe des patrons NOM ADJ à partir de la rubrique CULTURE et le motif 'culture'

Le résultat est intéressant car il montre non seulement le nom "culture" mais aussi les adjectifs dérivés de ce nom tel que "culturel" (léxème). Nous obtenons ainsi plusieurs graphes, sur lesquels la direction des flèches nous indique si le noyau du graphe est un nom ou un adjectif (puisque les patrons initiaux sont NOM ADJ et non ADJ NOM). Cela dit, pour le terme qui nous intéresse le plus ici, à savoir "culture", nous remarquons que les adjectifs qui le suivent sont à 50% des nationalités. Les 50% restant donnent plutôt un type de culture : "populaire", "underground", "jeune".

Nous avons donc voulu essayer avec le motif "française" et voir si cela nous amenait à des expressions évoquant la culture française en général :

Graphe des patrons NOM ADJ à partir de la rubrique CULTURE et le motif 'française'

Nous avons deux graphes selon le singulier et le pluriel du motif. Nous obtenons bien des termes évoquant la culture française : "séries françaises", "voix française", "culture française" (logique) ou encore "écrivaine française". Nous obtenons aussi quelques termes provenant de la politique, ce qui n'est pas étonant, la culture faisant partie des préocupations politiques, que ce soit en termes de censure ou de promotion : "autorités", "justice", "République".

Nous pouvons faire des milliers d'observations comme celles-ci, que ce soit en changeant le motif, les patrons ou la rubrique sur laquelle nous travaillons. Mais il est important de choisir un motif pertinent. Par exemple, il serait curieux d'observer le motif "téléphone" dans la rubrique "culture" ou le motif "musée" dans la rubrique "technologies" (dans notre cas bien sûr).

Pour plus de renseignement concernant cette technique :

Voir le lien du cours concernant la BàO 4


Pour conclure sur ce projet qui nous a pris plusieurs mois de travail, rappelons que nous avons analysé des données provenant des titres et descriptions des fils RSS du journal en ligne Le Monde . Il a fallut tout d'abord extraire les informations désirées à l'aide de scripts rédigés en Perl. Une fois ces informations receuillies, nous les avons taggées à de l'aide Cordial et Treetagger ; nous avons fait le choix d'intégrer ce dernier directement dans notre script. Nous avons ensuite pu extraire des patrons morpho-syntaxiques à partir des fichiers taggés générés par ces deux logiciels. Pour finir, nous avons analysé les résultats à l'aide d'un outil textométrique produisant des graphes, ce qui nous a permis d'obtenir un visuel intéressant afin de porter une réflexion linguistique sur les résultats d'extractions.

Retour à l'accueil !

Master Ingénierie Linguistique - BAO 2014 - page : BàO 4