Marseille dans la presse internationaleProjet de Master TAL sur la vie des mots sur le web

Cette page a pour but de vous présenter chaque étape de notre travail. Les tableaux et le script auxquels nous allons faire référence sont disponibles dans l’onglet Script de ce site, et vous pourrez avoir plus de détail dans les billets de notre blog de travail

Étape 1: Création du Blog

Avant tout travail préalable, nous avons créé un blog qui nous a servis de journal de bord. Vous y découvrirez l’avancement de notre travail, nos interrogations et nos petites victoires personnelles. N’hésitez pas à aller y faire un tour, ça se passe ici ou encore dans l’onglet blog que vous retrouverez un peu partout dans le site !

Étape 2: Sélection des URLS

La base, l’essence même de notre travail, est un corpus d’URLs soigneusement sélectionnées, car bien évidement il ne faut pas les prendre au petit bonheur la chance !

Tout d’abord, nous avons fait le choix de prendre des URLs d’articles de journaux. D’une part car il nous faut garder une certaine cohérence : on n’analyse pas la même chose en regardant des articles de journaux, des blogs, ou encore des documents administratifs. Par ailleurs, la presse est l'un des médias qui contribue à donner une représentation d'un pays ou d'une ville alors que la personne ne s'y est jamais rendue: C'est entre autre par la presse que les gens vont s'imaginer un lieu, une ville, une ambiance, un environnement, etc ...

Et qui dit « Marseille » dit « sport », de toutes catégories, mais toujours bien présent ! Ce qui nous a donc amené à nous poser la question de combien d’URL sportifs nous allions utiliser par corpus. Nous sommes tombées sur le nombre (plus ou moins arbitraire) de 6, mais sans fixer le type de sport.

Étape 3: Aspiration des pages

L’objectif pour le moment est de faire un tableau à trois colonnes comprenant :

- le numéro de l’URL

- l’URL

- la page aspirée de l’URL

Dans un premier temps donc, il nous faut numéroter chaque URL. Il est évident que nous n’allons pas le faire à la main, le but étant de tout automatisé. Puis il faudra mettre le lien à disposition. Enfin, il nous faudra aspirer l’URL.

Cette opération a pour but de conserver le contenu de l’URL, et ce quoi qu’il arrive ! En effet, nous ne voulons pas que la page expire, ce qui nous désavantagerait au plus au plus haut point dans nos recherches !

Pour l’aspiration des pages, nous avons le choix entre la fonction « wget -O » ou « curl -o ». Pour notre part, nous avons décidées d’utiliser curl.

Une fois l’opération terminée, pour nous prouver que nous avons bien réussit à faire ce que nous voulions, nous avons plusieurs choses à vérifier :

- La présence et le bon fonctionnement de la page HTML créée dans notre fichier Tableaux

- La présence des pages aspirées sous format HTML dans notre fichier Pages Aspirées

Si nous avons tout ça, alors on peut raisonnablement penser que ça marche !

Cette première étape peut révéler plusieurs soucis qui ne sont pas du fait de la programmation. Ils vont être visibles dans les tableaux ou lors de la vérification dans nos dossiers. Ils peuvent apparaitre sous la forme de lignes non présentes dans les tableaux, de pages non aspirées, etc… Pour avoir la réponse à tous ces mystères, nous vous invitons à lire le billet portant sur ce sujet dans notre blog. C’est juste ici!

Étape 4: Dumps

Une fois les pages aspirées, il faut quand même bien en faire quelque chose. Pour cela, on va créer un DUMP, c'est à dire un fichier qui ne contient que le texte de notre page. Cette étape va être réalisée grâce à la fonction « lynx » en bash.

Pour que nous puissions exploiter ces DUMPs correctement, il faut s'assurer de l'encodage des pages. Ainsi, pour que la tâche soit plus simple, nous allons choisir de les avoir en UTF8. Cela nous mène à deux possibilités:

- soit la page est déjà en UTF8, et dans ce cas on la garde tel qu'elle est;

- soit la page n'est pas en UTF8, auquel cas on va se charger de la convertir en UTF8 et de faire en sorte de l'enregistrer comme telle.

Une fois le programme lancé, les commandes exécutées et les premiers messages d'erreur repérés, il est temps de comprendre ce qui a planté! Et là encore, on peut se retrouver confronté à plusieurs soucis. Dans la grande majoritairement, ils ne sont pas liés à l’action de faire un dump, mais plutôt à ce que l’on a obtenue lors de l’aspiration des pages. Encore une fois, nous y avons consacré un billet dans le blog, alors pour plus d’info, c’est par là!

Étape 5: Contextes

Dans nos dumps, tout ne nous intéresse pas. N’oublions pas le thème de notre étude : Marseille ! Ainsi, au lieu de garder le dump en entier, nous n’allons garder que deux lignes au-dessus et deux lignes en dessous de Marseille ou de tout mot qui s’en rapproche car nous avons définis une expression régulière pour pouvoir capter un maximum d’information, mais surtout pouvoir l’appliquer à toutes nos langues !

Cette étape nous mène à ajouter une colonne supplémentaire à notre tableau, et le contexte ne sera fait qu’à partir du dumps en UTF8 !

Étape 6: Index

Toujours dans l’idée d’analyser ce que contiennent nos fichiers, nous avons réalisé un index sur chaque dumps utf8, nous donnant ainsi une liste classée dans l’ordre décroissant de tous les mots présents ainsi que leur nombre d’apparitions.

Néanmoins ce fichier n’est que peu exploitable car d’une part nous le faisons sur le dump utf8 et non sur le contexte, d’autre part parce que cette méthode ne nous permet pas d’éliminer les mots vides (comme « de », « la », « les », …) qui sont pourtant les plus présents dans une langue.

Cette étape rajoute néanmoins une ultime colonne à notre tableau.

Étape 7: Concaténations en fichiers globaux

Pour analyser nos langues, nous n’allons pas prendre chaque dump en contexte et l’analyser ! Encore une fois, le but est d’automatiser un maximum ! C’est pour cela que nous allons concaténer les dumps en et or contextes. Ils vont être disponibles dans un fichier prévu à cet effet mais également dans une cellule à la toute fin de la colonne correspondante.

Et c’est la dernière étape de nos tableaux !