Problèmes, solutions, indices
En consultant les travails de l'années précédente, j'ai fait 2 solutions en 2 dimension, qui sortent 4 rubriques, soit 24 fichiers de sortie.La dimension de surface obtient les contenus de titres et de résumés de tous les articles. Celle de profondeur sont titre + contenu.
Voir détail à mon
Solution1 en pur perl : parcourir l'arborescence de manière récursive si l'on a affaire à un dossier.
Voir lemondesurface1.pl lemondeprofond1.pl :
Solution2 avec module XML::RSS.
Pour effectuer cette solution, j'ai installer le module XML::RSS par CPAN. Les détails de l'installation peut être lu dans mon Blog où j'ai noté la solution de l'installation échouée.
Voir lemondexml.pl :
L'étiquetage est fait soit avec TreeTagger pendant l'exécution des scripts, soit à l'extérieur de ceux-ci avec Cordial, celui-ci ne pouvnt être exécuté en ligne de commande. Selon les utilisateurs, Cordial a une difficulté en traitant le grand corpus de taille 1MB +, et Treetagger produit les fichiers xml hyperlong que dans les éditeurs xml, ce n'est pas assez lisible.
C'est l'étape le plus long pendant tout le projet. Voir détail à mon
Solution1 avec TreeTagger.
Treetagger: entrée xml, encodage utf-8, intégré dans le script, sortie xml
lemondetree.pl lemondetreeXMLRSS.pl
Solution2 avec Cordial.
Cordial : entrée txt, encodage ANSI, logiciel externe, sortie fichier cnr
J'ai extrait deux patrons : NOM ADJ et NOM PREP NOM à l'aide de diverses méthodes (feuilles de style XSLT, scripts en pur perl et script perl utilisant le module XML::LibXml).
NOM + ADJ
Avec les sorties de Treetagger :
Solution1: XSLT + Oxygen
Oxygen est très fort qui permet de créer directement le fichier html par fichier xml et xsl. Les seules choses qui demandent l'attention est que on doit modifier manuellement le fichier xml s'il contient les éléments comme "&", par exemple, le nom AT&T doit être écrit comme AT"&"T. Tous les entités html doit être modifiés.
Solution2: Perl avec XML::RSS
Puisque j'ai le format différent du fichier xml sortie à BàO2 que l'exemplaire du professeur, j'avais dû modifié le script pour qu'il convienne à ma situation.
Le fichier xsl de Solution1 est modifié aussi mais le script perl demande une plus grande modification. En fait, c'est une simplification d'utiliser mon format car il évite de faire plusieurs boucles. Voir détails à mon
extract-patron-tree.pl
Avec les sorties de Cordial :
En prenant les fichiers cnr comme entrée, les scripts viennent des professeurs se permettent de récupérer les patrons en examinant chaque ligne cohérente avec les expressions régulières. Voir les détails :
NOM + PRP + NOM
Comme les cas de Nom + Adj, j'ai modifié le script pour convenir mon format. Le script est sur un même script extract-patron-tree.pl; voir la sortie :
Les graphes ont été exécutés grâce à patron2graphe.exe, et illustrent les diverses occurrences des patrons syntaxiques extraits, autour du motif "[iI]mpôts?", "Macron", "chômage", "financ[ie]", "augment", "travail".
Si vous utilisez un Mac, pour exécuter ce programme sous Windows, vous pouvez choisir Wine qui vous aide à utiliser les outils de Windows dans un environnement OS. Lire les détails dans mon
J'ai choisi deux rubriques pour lancer l'enquête de concurrence sur les corpus: À la une et Économie. Dans la rubrique À la une, on a vu la petite existence de Macron et de l'impôt. Il me semble que en 2016, Macron n'est pas encore au focus du publique; tandis que, même si l'on a présupposé l'importance de l'économie dans l'actualité de la presse, on est étonné par l'attention du sujet "travail" et "chômage". Il a l'air que le monde en 2016 s'inquiète beaucoup aux chiffres et au plan dans le champ de chômage. En même temps, quand on parle du "travail", beaucoup de l'attention est faite sur les "travaillistes", qui me fait une surprise par rapport aux genres de travail et aux travailleurs.
Voir les graphes en détail dans BàO4
La rubrique de l'économie est le clé du projet "Quand on parle de l'économie, on parle de quoi?"
Macron : peu de focus mais en action.
impôt : quel et comment.
augmentation : tous imposition et capital, et "pourquoi".
chômage : négociation et ... beaucoup de statistiques.
travail : quel, quand, comment et l'intérêt des travailleurs. Une grande attention et la discussion active.
finance : vrai pôle du focus publique. Comme je cherche le motif financ[ie], on a beaucoup de résultats sur le financement et financier/ière comme adjective. Les domaines du sujet sont variés aussi. Du profit financier à l'application du profit, des problèmes financiers aux propositions des solutions.
En résumé, la presse française LeMonde rélève que la société française se concerne les sujets principaux de "travail" et de "finance" en économie. En 2016, on est dans un temps de l'inquiétude et de la diversité de possibilités en économie. La situation économique n'est pas assez optimiste. Les gens s'adressent aux questions de l'horaire du travail et de différentes formes du travail. Autrement dit, on est pas optimiste dans le marché de travail. Ni pour le sujet financier car on a vu beaucoup de mots négatives comme "scandale", "fragilité", "crise", "difficulté", "anarque". Mais en même temps, on cherche à "communication", "montage", "compensation" et "soutien". C'est un temps avec la diversité à la fois de bon et mauvais côtés.
Voir les graphes en détail dans BàO4
Les differents scripts du projet, modules et documentation.
Aussi : Les solutions proposées pour tous les problèmes possibles.