Quand on parle de l'économie, on parle de quoi ?

--Projet Encadré 2

Boîtes à Outil Voir Blog

BàO 1

Parcours de l'arborescence, détéction des fichiers RSS et nettoyage.

BàO 2

Etiquetage automatique et plusieurs solutions

BàO 3

Extraire les patrons syntaxiques

BàO 4

Production de graphes

Analyse

Problèmes, solutions, indices

Parcours de l'arborescence

En consultant les travails de l'années précédente, j'ai fait 2 solutions en 2 dimension, qui sortent 4 rubriques, soit 24 fichiers de sortie.La dimension de surface obtient les contenus de titres et de résumés de tous les articles. Celle de profondeur sont titre + contenu.

Voir détail à mon

Solution1 en pur perl : parcourir l'arborescence de manière récursive si l'on a affaire à un dossier.

Voir lemondesurface1.pl lemondeprofond1.pl :

Solution2 avec module XML::RSS.

Pour effectuer cette solution, j'ai installer le module XML::RSS par CPAN. Les détails de l'installation peut être lu dans mon Blog où j'ai noté la solution de l'installation échouée.

Voir lemondexml.pl :

Étiquetage automatique

L'étiquetage est fait soit avec TreeTagger pendant l'exécution des scripts, soit à l'extérieur de ceux-ci avec Cordial, celui-ci ne pouvnt être exécuté en ligne de commande. Selon les utilisateurs, Cordial a une difficulté en traitant le grand corpus de taille 1MB +, et Treetagger produit les fichiers xml hyperlong que dans les éditeurs xml, ce n'est pas assez lisible.

C'est l'étape le plus long pendant tout le projet. Voir détail à mon

Solution1 avec TreeTagger.

Treetagger: entrée xml, encodage utf-8, intégré dans le script, sortie xml

lemondetree.pl lemondetreeXMLRSS.pl

Solution2 avec Cordial.

Cordial : entrée txt, encodage ANSI, logiciel externe, sortie fichier cnr

Patrons syntaxiques

J'ai extrait deux patrons : NOM ADJ et NOM PREP NOM à l'aide de diverses méthodes (feuilles de style XSLT, scripts en pur perl et script perl utilisant le module XML::LibXml).

NOM + ADJ

Avec les sorties de Treetagger :

Solution1: XSLT + Oxygen

Oxygen est très fort qui permet de créer directement le fichier html par fichier xml et xsl. Les seules choses qui demandent l'attention est que on doit modifier manuellement le fichier xml s'il contient les éléments comme "&", par exemple, le nom AT&T doit être écrit comme AT"&"T. Tous les entités html doit être modifiés.

Solution2: Perl avec XML::RSS

Puisque j'ai le format différent du fichier xml sortie à BàO2 que l'exemplaire du professeur, j'avais dû modifié le script pour qu'il convienne à ma situation.

Le fichier xsl de Solution1 est modifié aussi mais le script perl demande une plus grande modification. En fait, c'est une simplification d'utiliser mon format car il évite de faire plusieurs boucles. Voir détails à mon

extract-patron-tree.pl

Avec les sorties de Cordial :

En prenant les fichiers cnr comme entrée, les scripts viennent des professeurs se permettent de récupérer les patrons en examinant chaque ligne cohérente avec les expressions régulières. Voir les détails :

NOM + PRP + NOM

Comme les cas de Nom + Adj, j'ai modifié le script pour convenir mon format. Le script est sur un même script extract-patron-tree.pl; voir la sortie :

Création de graphes

Les graphes ont été exécutés grâce à patron2graphe.exe, et illustrent les diverses occurrences des patrons syntaxiques extraits, autour du motif "[iI]mpôts?", "Macron", "chômage", "financ[ie]", "augment", "travail".

Si vous utilisez un Mac, pour exécuter ce programme sous Windows, vous pouvez choisir Wine qui vous aide à utiliser les outils de Windows dans un environnement OS. Lire les détails dans mon

J'ai choisi deux rubriques pour lancer l'enquête de concurrence sur les corpus: À la une et Économie. Dans la rubrique À la une, on a vu la petite existence de Macron et de l'impôt. Il me semble que en 2016, Macron n'est pas encore au focus du publique; tandis que, même si l'on a présupposé l'importance de l'économie dans l'actualité de la presse, on est étonné par l'attention du sujet "travail" et "chômage". Il a l'air que le monde en 2016 s'inquiète beaucoup aux chiffres et au plan dans le champ de chômage. En même temps, quand on parle du "travail", beaucoup de l'attention est faite sur les "travaillistes", qui me fait une surprise par rapport aux genres de travail et aux travailleurs.

Voir les graphes en détail dans BàO4

La rubrique de l'économie est le clé du projet "Quand on parle de l'économie, on parle de quoi?"

Macron : peu de focus mais en action.

impôt : quel et comment.

augmentation : tous imposition et capital, et "pourquoi".

chômage : négociation et ... beaucoup de statistiques.

travail : quel, quand, comment et l'intérêt des travailleurs. Une grande attention et la discussion active.

finance : vrai pôle du focus publique. Comme je cherche le motif financ[ie], on a beaucoup de résultats sur le financement et financier/ière comme adjective. Les domaines du sujet sont variés aussi. Du profit financier à l'application du profit, des problèmes financiers aux propositions des solutions.

En résumé, la presse française LeMonde rélève que la société française se concerne les sujets principaux de "travail" et de "finance" en économie. En 2016, on est dans un temps de l'inquiétude et de la diversité de possibilités en économie. La situation économique n'est pas assez optimiste. Les gens s'adressent aux questions de l'horaire du travail et de différentes formes du travail. Autrement dit, on est pas optimiste dans le marché de travail. Ni pour le sujet financier car on a vu beaucoup de mots négatives comme "scandale", "fragilité", "crise", "difficulté", "anarque". Mais en même temps, on cherche à "communication", "montage", "compensation" et "soutien". C'est un temps avec la diversité à la fois de bon et mauvais côtés.

Voir les graphes en détail dans BàO4