Dernière analyse possible sur nos corpus d’articles, le trameur. Alors, parce que ce n’est pas forcément évident, un trameur, qu’est-ce que c’est ?

Un trameur est un logiciel, un peu comme une « moulinette », qui va analyser notre texte en nous donnant la fréquence de chaque mot puis dans quel contexte il s’inscrit, cela veut dire qu’il va donner les « co-fréquents » qui sont les mots les plus souvent associés à celui qui nous intéresse.

Cette définition soulève quand même une petite question d’analyse : jusqu’où considère-t-on le contexte pour que les mots soient vraiment des co-fréquents ? Une réponse raisonnable serait de prendre comme référence l’article et le paragraphe et non le texte au grand complet. Pour cela, nous avons dû procéder en deux étapes. Dans un premier temps nous avons intégrer un délimiteur d’article dans nos cotextes globaux. Avec tous les articles que nous avons, il n’était pas envisageable de le faire à la main, et donc pour cela, rien ne vaut deux lignes de code supplémentaires :

echo "Fichier=$i" >> ./FICHIERS_GLOBAUX/dump_globaux_$j.txt;

echo "Fichier=$i" >> ./FICHIERS_GLOBAUX/contextes_globaux_$j.txt;

que nous avons placé juste avant de faire la concaténation de nos fichiers. Cette étape résout le problème du contexte par article.

Pour ce qui est des paragraphes, nous avons dû faire un sérieux travail sur nos dumps globaux et en contexte car, puisque le symbole du paragraphe (§) n’était présent nulle part, nous l’avons mis à la suite de chaque annotation "Fichier=$i", mais également à la fin de chaque paragraphe. S’il est plutôt facile de rajouter le symbole à la suite de l’annotation de fichier de façon automatique, c’est une toute autre histoire pour le mettre automatiquement à la fin de chaque paragraphe, ce qui implique un travail à la main ! Il aurait été possible de mettre un tout autre signe, tout fonctionne tant que signe choisit n’apparait pas au préalable dans le texte.

Un autre problème qui apparait losque l'on travaille sur des aspirations de pages de journaux, c'est le traitement des pub, entêtes, encarts, rubriques et pop-up. Ces derniers ont été supprimés à la main pour obtenir des textes avec moins de parasites.

Une fois que nous avons délimité notre contexte, il nous est possible de changer les paramètres de calcul sur le logiciel grâce au degré minimum de co-fréquence (« Co-Freq ») et le seuil de co-fréquence (« Seuil »). Plus ce dernier est élevé plus les résultats sont précis et moins on trouvera de mots. Ce qui implique aussi qu’une recherche avec un seuil très bas peu prendre beaucoup, beaucoup de temps si notre corpus est volumineux !

Enfin, dans nos résultats sur le trameur, nous nous sommes rendues compte que les mots vides revenaient de manière systématique. C’est normal après tout, ce sont les mots les plus présents dans la langue en générale, mais par contre ils n’apportent rien à notre analyse, ils nous parasitent même plus qu’autre chose. La solution ? Une stopliste ! Une stopliste est une liste de mots que nous pouvons faire sur le trameur (mais elle sera perdue à chaque fermeture), ou dans un document .txt dans lequel nous allons mettre tous nos mots, un par ligne, et que nous allons importer dès que nous allons en avoir besoin. Une fois appliquée au texte, la stopliste va nous permettre de nous concentrer sur les mots qui ont vraiment du sens et qui nous permettrons de faire une vraie analyse.

Une fois les paramétrages compris et les essais faits, passons à l’analyse.

Trameur en Français

Nous analysons donc d’abord le dump en contexte et ensuite le dump global.

Pour ce qui est du dump en contexte avec uniquement le mot Marseille, on remarque que le thème principal est la politique avec le nom de « Mr Gaudin » qui est l’actuel maire de Marseille et Mr Patrick « Mennucci » qui est candidat à la mairie de Marseille pour 2014.

Et c’est une tendance qui se retrouve lorsque l’on regarder le résultat du trameur sur l’expression régulière « arseill » sur le dump en contexte. En effet, sur le pôle « Marseillais », nous retrouvons « Marine » Le « Pen » qui est à la tête du parti Front National, Anna « Rosso-Roig » qui est la députée Front de Gauche pour la région PACA, ainsi que « Rachida Dati » qui est membre du parti UMP et qui a soutenu « Samia Ghali » (que l’on retrouve sur le pôle « paixMarseille ») candidate PS à la Mairie de Marseille pour 2014. Enfin, on commence à distinguer d’autres thèmes avec le mot « Football » et « sécurité », respectivement attachés au pôle « Marseillais » et « marseillaise ».

nuage nuage

{Résultats du trameur sur le contexte global en français}

La tendance du football se confirme fortement dans le graph du trameur sur le dump global puisque l’on retrouve des mots comme « joueurs », « OM », « arbitre », « terrain », « ballon », « frappe », et « supporteurs », ainsi que 9 noms de joueurs de l’OM (Giannelli Imbula Wanga, Rod Fanni, Saber Khalifa, Nicola N’Koulou, Mathieu Valbuena, Dimitri Payet, Lucas Mendes, Benjamin Mendy, et Steve Mandanda), 4 joueurs du Borussia Dortmund qui est un club allemand (Mitchell Langerak, Pierre-Emerick Aubameyang, Nuri Sahin, et Mercato Marco Reus) et un joueur du Bayer de Munich (Lewandowski). Ce qui montre quand même que le foot est le thème principal de ce graph.

nuage nuage

{Résultats du trameur sur le dump global en français}

Pour les tendances du français, on a donc une analyse complètement différente des journaux anglophones puisque les thèmes principaux sont la Politique et le football.

Le plus surprenant pour le moment est que nous avons pris des articles entre 2010 et 2013, et on s’attendrait donc à trouver un peu plus d’articles sur la culture, notamment pour la France puisque Marseille a été Capital Européenne de la Culture en 2013 ! De même, nous nous attendions à trouver plus d’articles sur l’insécurité en français en raison de tous les soucis que la ville a eu cet été 2013 (affaire de vol, de drogue, de corruption dans la police, …), mais là encore, rien.

    Trameur en Anglais

    Lors de notre analyse du dump en contexte en ne cherchant que Marseille, le premier résultat est assez décevant, puisqu'avec un seuil bas, nous n'obtenons qu'une majorité de mots vides (d’ailleurs à la suite, on peut voir l'application directe de la stopliste, ce qui donne un bon « avant /après »). Et même en appliquant une expression régulière (c’est-à-dire en cherchant « arseill »), nous n’obtenons pas mieux. Heureusement, il nous reste encore le dump global sur lequel nous pouvons faire la même chose, et là, gloria ! On a bien quelque chose d’exploitable.

    nuage nuage

    {Résultats du trameur sur le contexte global en anglais}

    Dans un premier temps, on relève bien deux thèmes principaux : d’une part les problèmes d’insécurités avec « murder » et « northern » (relatif aux quartiers nord de Marseille), et d’autre part le statut de Marseille en tant que Capitale Européenne de la Culture pour 2013 avec le mot « capital ».

    Quand on passe à l’analyse de l’expression régulière « arseill », on enrichit le premier thème de l’insécurité et des problèmes de Marseille avec « poverty » (pauvreté), « police », « drug » (drogue) , « attacks », « crime » et « gun » (arme à feu).

    Mais on enrichit aussi le thème de la culture au sens large avec « Cuisine », « Mediterranean », « mint » et « Sweet » (relatif à la cuisine).

    On voit également se démarquer des idées supplémentaires qui sont la Politique (avec les mots « mayoral » (du maire) et « candidate », preuve que c’est une part importante de la ville. Enfin, en plus discret, on trouve « proud » (fière) et « fiercely » (fidélité, dans le sens « sentiment d’appartenance à »), ces deux derniers étaient reliés à « Marseillais », ce qui prouve bien que peu importe ce que l’on dit sur leur ville, les marseillais en sont fiers, de même pour leur culture, et c’est un fait bien connu dans la culture française.

    Une dernière petite chose qui peut intriguer, c’est l’apparition du mot « Noir » en relation avec le mot « Marseilles ». En réalité il n’a rien à voir avec l’immigration ou la population noire de la ville, mais c’est en rapport avec un livre dont le titre est « Marseilles, Mediterranean Cuisine, and Noir Fiction », et une exposition qui avait pour titre « Le Noir et le Bleu », d’où l’apparition du mot !

    On remarque donc que pour les journaux anglophones, les thèmes principaux sont les problèmes d’insécurité et d’illégalité, ainsi que la Culture et un petit peu de Politique.

    nuage nuage

    {Résultats du trameur sur le dump global en anglais}

      Trameur en Espagnol

      Pour l’espagnol, l’analyse est plutôt difficile, non pas en raison du vocabulaire ou de la densité de l’information, mais plutôt à cause du manque de matière première ! En effet, entre les pages qui n’ont pas pu être aspirées et ensuite le nettoyage des articles, il ne nous restait pas autant de texte que nous l’avions prévu.

      Cela donne donc un graph du trameur sur le mot « Marsella » (Marseille en espagnol) à partir du dump en contexte composé d’un seul et unique mot, mot qui en plus est mot vide : « en ». Cela veut donc dire qu’avec l’application d’une stopliste, nous n’obtiendrons même pas de résultat avec le trameur. Même résultat avec l’expression régulière « arsell », dont le seul mot exploitable se trouve être « Liga ».

      Il est donc évident que si nous souhaitons obtenir un résultat exploitable, nous devons travailler sur le dump global.

      nuage nuage

      {Résultats du trameur sur le contexte global en espagnol}

      Avec le dump global, les résultats obtenus sur le seul mot de Marsella sont déjà bien plus intéressants. Dans la catégorie culture, on peut mettre les mots « vista » (ici dans le sens « visite »), « capital », « cultural » (culturel) , « calas » (calanques), « puertos » (ports), « Kosice » (qui est la deuxième plus grande ville de Slovaquie et qui a partager le titre de Capitale Européenne de la Culture 2013 avec Marseille), inauguración (inauguration), información (information) et región (région). On remarque donc que les journaux hispanophones abordent bien plus la culture que le font les autres journaux, et parlent de symboles de la ville (comme les calanques ou le port), qui ne sont même pas mentionnés par les autres pays !

      Le deuxième thème le plus abordé par ce graph est – sans grande surprise – le football. On remarque les mots « Juega » (jeu, match), « Arsenal », « exjugador » (ancien joueur), « OM », « Olympic » (Olympique), « deportivo » (sport), « Deschamps » (joueur à l’Olympique de Marseille de 1989 à 1994, entraineur de l’équipe de Marseille de 2009 à 2012, et actuel entraineur de l’équipe de France depuis 2012.)

      En ajoutant l’expression regulière « arsella », nous n’obtenons qu’un seul mot supplémentaire qui est « Liga » (ligue) (déjà vu dans le graph du trameur en contexte).

      Il ne nous reste plus qu'à terminer l'analyse des articles en finnois pour pouvoir conclure et ainsi terminer notre analyse!

      nuage nuage

      {Résultats du trameur sur le dump global en espagnol}

      Trameur en Finnois

      Tout d'abord, nous constatons que lorsque "Marseille" est évoqué dans la presse finlandaise c'est essentiellement associé au sport. En effet, les termes "Anchelotti","fanien PSG"(fan du PSG),"Manchester United","pelaajat"(joueurs) et "0"(qui est relatif aux résultats de matchs) sont en lien avec le milieu sportif, le football plus particulièrement que ce soit à l'échelle nationale ou européenne.

      De plus, nous incluons également le terme "Euroopan"(D'Europe). Cependant, nous ne pouvons savoir avec exactitude à quel domaine il peut être associé ; à ce domaine-ci ou à celui (du thème) de la culture. Etant donné, la forte présence des articles relatifs au domaine footballistique lorsqu'il s'agit de Marseille, la probabilité qu'il appartienne au monde du sport est plus élevée.

      Enfin, le reste des termes se partagent entre le thème du tourisme local et celui de la ville de Marseille en tant que capitale européenne de la culture, à savoir respectivement "Hotels", "Alexandre","suurin"(grand, majeur) puis "slovakian" (slovaque) par exemple.

      Toutefois, le trameur de l'expression régulière nous apporte davantage d'informations. En effet, nous constatons que plus de termes apparaissent et en l'occurrence associés aux thèmes ci-dessus. Ce qui nous laisse à penser que la culture prend une place non négligeable dans les mœurs finlandaises.

      Nous constatons également que Marseille est mis un peu plus en avant en tant que ville ou lieu et pas uniquement en tant que club de football. L'expression "Marseille" est plutôt associée au domaine sportif tandis que les expressions "Marseillessa" (à Marseille) et "Marseilleen"(en direction de Marseille) sont associées à toutes les activités culturelles et touristiques (connues) de la ville. Les termes suivants en témoignent:

      Marseilleen ---> matkustamista (voyage)

      Marseillessa ---> Tanssiteatri (théâtre de danse)

      Certains termes relatifs aux faits divers ressortent mais en quantité bien moindre.Nous pouvons en conclure que La ville de Marseille est principalement connue dans le domaine du sport mais qu'elle est mise en lien avec des thèmes qui la mette en valeur.

      nuage nuage

      {Résultats du trameur sur le contexte global en finnois}

      Nous remarquons que ce qui ressort comme constatations des trameurs des fichiers globaux corrobore avec les idées et impressions mises en lumière dans les fichiers en contexte i.e. que sur la totalité des articles récupérés sur le net, les articles sportifs y sont prépondérants. En effet, d'une part le terme "Marseille" renvoie toujours en majorité à des termes qui concernent le sport à savoir "Deschamps", "Bayern" et d'autre part les termes "Marseillen" (de/appartenant à Marseille) et "Marseillesta" (de/en provenance de Marseille) renvoient au domaine culturel que la ville peut apporter.

      nuage nuage

      {Résultats du trameur sur le dump global en finnois}

      Ainsi les mœurs finlandaises vis-à-vis de la ville de Marseille sont traduites à travers la presse comme étant associées principalement au sport mais sans faire abstraction pour autant à tout ce qui à attrait à la culture de la ville.

      Alors qu’en dire ? Depuis quelques années, la ville de Marseille essaye de faire changer son image en montrant au reste du monde qu’elle ne se résume pas qu’à ses problèmes d’insécurité. Pari réussit ? Plutôt oui ! La France ne se focalise pas uniquement sur ça, mais également sur tous les changements que la ville met en place, comme son nouveau musée sur les civilisations méditerranéennes qui est sensé s’inscrire dans la continuité de l’année « Capitale Européenne de la Culture 2013», ou encore la nouvelle rocade qui devrait aider Marseille à perdre son statut de 1ère ville française et de 6ème ville mondiale la plus embouteillée (d’après le classement TomTom 2013, après de grandes villes comme Rio de Janeiro(3ème au classement) ou encore Moscou(1ère au classement)) … ce qui n’est pas rien !!!

      Au final il n’y a que les pays anglophones qui restent sur leur position de ville « à problème », même si ils ne parlent pas uniquement de cet aspect. Cela peut s’expliquer par le fait que le Royaume-Uni considère Marseille comme l’une des portes d’entrée de l’immigration africaine en Europe, immigration qui se retrouve souvent dans le nord de la France dans l’idée de traverser la Manche et de s’installer au pays de sa Majesté. On peut donc comprendre que le problème est bien plus complexe que la ville en elle-même…

      Galerie d'images

      nuagenuagenuage
      nuagenuagenuage
      nuagenuageprobleme d'aspiration de pages