BAO4 : Visualisation des données

En fin nous avons eu tous les données à traiter pour les rubriques ''à la une'', ''international'' et ''entreprise''. Et pour cette dernière étape, il concerne à réajuster et analyser des données. Il consiste à visualiser les patrons syntaxiques issus de l’extraction réalisée par la BAO3 et de réaliser une analyse textomértique. Pour cela, nous avons utilisé le programme patron2graphs.exe, qui a été développé par Monsieur Serge Fleury et qui fait partie des outils du trameur. Ce programme fonctionne comme l'outil Trameur,ce programme ne fonctionne qu'avec des fichiers en texte brut (c'est pour ça que nous avons converti les fichiers XML en texte brut). Il vaut mieux l'utiliser sur Windows et se lancer en ligne de commande, la ligne de commande est comme ceci :

patron2graphs.exe "utf-8" fichier.txt motif.txt

  • un fichier en texte brut -> il est à chaque fois un fichier en texte brut issu de la BAO3, soit réalisé par Treetagger, soit par Cordial :

    1) Pour la rubrique ''à la une'' :
    fichier issu de Cordial : sortie-cordial-3208.txt
    fichier issu de Treetagger : sortie-treetagger-3208.txt

    2) Pour la rubrique ''international'' :
    fichier issu de Cordial : sortie-cordial-3210.txt
    fichier issu de Treetagger : sortie-treetagger-3210.txt

    3) Pour la rubrique ''entreprise'' :
    fichier issu de Cordial : sortie-cordial-3234.txt
    fichier issu de Treetagger : sortie-treetagger-3234.txt

  • Encodage de notre fichier : "utf-8"
  • Le fichier de paramètre :
  • NC[^\s]+ ADJ[^\s]+

    Analyse des donnés :

    Des graphes générés par Patron2graphe nous a permis de visualiser et de comparer de manière rapide les différentes réalisations de notre motif dans le corpus. Cet outil nous a également permis de comparer de manière efficace les résultats obtenus avec les différents programmes utilisés.

  • Token 1 : ''mondial''
              Résultat pour la rubrique ''entreprise'' via Treetagger                     Résultat pour la rubrique ''entreprise'' via Cordial


    Dans la rubrique "entreprise", nous avons choisi le mot "mondial" comme notre motif afin de trouver des concordances. Grâce aux suites de patrons NOM ADJ choisi, nous pouvons repérer efficacement des concordances intéressantes. Dans notre graphes, les noms associés au mot "mondial" sont "croissance" "finance" "banque" "sommet" "Bourses" "économie" "industries". Même si nous avons donné le corpus identique aux deux logiciels Cordial et Treetagger pour étiqueter, les résultats obtenus ne sont pas exactement les même. Le plus manifestant est que, dans la représentation graphique de Cordial, la concordance la plus fréquente est le mot "leader" qui présente 13 fois ensemble avec le motif "mondial », alors qu’il n’a y même pas de ce mot dans le résultat de Treetagger. La raison est peut-être que Cordial et Treetagger n’utilisent pas la même technologie d’étiquetage, dans le Cordial, le mot anglais « leader » est considéré comme un NOM tandis que cela n’est pas le cas dans le Treetagger. A part de cela, d’autre résultat est similaire dans les deux graphes.

    Le stem « fronti » dans les rubriques ''à la une'' et ''international'' :
    Le programme patron2graphe nous permet de visualiser les résultats avec un stem de mot. Pour le deuxième motif, nous avons choisi le stem « front » qui peut représenter toutes les formes de mots qui commencent par « fronti ». Le programme a idéalement repéré tous les mots souhaités dans la famille de « front »: « frontière-s » Token 3 : ''frontière''
              Résultat pour la rubrique ''à la une'' via Treetagger                     Résultat pour la rubrique ''international'' via Treetagger


              Résultat pour la rubrique ''à la une'' via Cordialnbsp                     Résultat pour la rubrique ''international'' via Cordial


    Avec le programme patron2graphe, nous pouvons aussi utiliser le terme « \b » pour délimiter notre motif. Dans le fichier de motif, «[Pp]artis?\b » signifie qu’il va cherche toutes les formes de mots parti au singulier ou pluriel, en majuscule au début ou en minuscule. A l’aide de ce fichier de paramètre, nous avons obtenu les deux graphes de résultat.

    Token 3 : ''parti''
              Résultat pour la rubrique ''à la une'' via Treetagger                   Résultat pour la rubrique ''international'' via Treetagger


    <          Résultat pour la rubrique ''à la une'' via Cordial                        Résultat pour la rubrique ''international'' via Cordial


    En comparant ces graphes de la rubrique « à la une » et la rubrique « international », nous pouvons trouver que dans toutes ces deux rubriques, le journal le monde parle davantage du Parti républicain et du Parti démocrate. Et il est intéressant que dans la rubrique « à la une », le terme « parti d’extrême » est plus fréquent que celui dans la rubrique « international », il indique les inquiétudes des français aux partis d’extême.

    En générale, les deux logiciels d’étiquetage ne prouvent pas des différences trop grandes et ils présentent des résultats plus ou moins parallèles. Selon leurs technologies utilisées différentes, nous pouvons obtenir les résultats variés. Afin de présenter la réalité la plus exacte, nous devons choisir soigneusement le logiciel avec les configurations et les paramétrages qui conviennent le plus aux besoins.