Démarche

31 janvier 2012

 

PHASE 1

Il nous a d'abord été demandé de choisir un mot présentant une problématique d'ordre linguistique. On nous a d'abord suggéré des verbes mais on pouvait aussi choisir d'autres catégories grammaticales. Avec ma collègue Irina, nous nous sommes mis d'accord sur le mot "suivant", traduit en anglais par "following", et en russe par "следующий" (suite à l'abandon du projet par Irina, j'ai dû me contenter de travailler sur le français et l'anglais). En français, "suivant" possède les sens suivants :

- Un nom : Personne qui en suit une autre dans une file, une énumération: "Au suivant, s'il vous plaît !"
- Un adjectif : Qui est après: "Pourriez-vous servir le client suivant ? - Ce personnage apparaît dans la scène suivante."
- Une préposition : Indique la conformité à une direction: "Découper suivant les pointillés."
2. Indique le rapport, la proportion, la correspondance: Traiter les gens suivant leur mérite. - "Suivant l'heure à laquelle je quitterai le bureau, je vous appellerai" (= en fonction de).
3. Indique l'origine d'un propos, d'une information: "Suivant les sondages, ce candidat devrait remporter les élections (= d'après; selon)".

En anglais, "following possède les sens suivants :

- adj. 1. next in time: "the following afternoon/month/year/week." - "They arrived on Monday evening and we got there the following day."
2. that is/are going to be mentioned next: "Answer the following questions."


- noun. 1. (usually sing.) a group of supporters: "The band has a huge following in Italy."
2. the following (used with either a singular or a plural verb depending on wether you are talking about one thing or person or several things or people) the thing or things that you will mention next; the person or people that you will mention next: "The following is a summary of events." - "The following have been chosen to take part: Watts, Hodges and Lennox."

- prep. after or as a result of a particular event: He took charge of the family business following his father's death.

On en déduit que les deux mots ont un nombre de sens à peu près équivalents, mais qui ne se recoupent pas systématiquement.

LE TRAITEMENT INFORMATIQUE

Il fallait ensuite choisir 50 URLs de sites Internet où l'on retrouvait le mot choisi, pour chaque langue donnée. J'ai donc travaillé avec 100 pages web (50 en français et 50 en anglais), choisies principalement parmi des sites d'information tels que France 24 ou BBC News. Ces URL, regroupées dans des fichiers texte, ont servi de "cibles" pour le script, des adresses vers lesquelles récupérer le texte à traiter.

Puis nous devions créer l'arborescence du projet. Celle-ci se présente comme un dossier nommé PROJET-MOT-SUR-LE-WEB, contenant les sous-dossiers DUMP-TEXT, CONTEXTES, PROGRAMMES, URLS, TABLEAUX, IMAGES, PAGES-ASPIREES et minigremmultilingue-html.

Ensuite est venue la réaction du script, l'étape la plus longue du projet, qui s'est étalée sur plusieurs mois. Le script devait effectuer les tâches suivantes :

- Trouver les fichiers contenant les URL
- Traiter chaque fichier d'URL l'un après l'autre
- Traiter chaque URL individuelle l'une après l'autre
- Pour chaque URL, télécharger ("aspirer") la page web correspondante
- Déterminer l'encodage de la page aspirée
- Si celui-ci est UTF-8, enregistrer le texte de la page web dans un fichier texte
- Si l'encodage n'est pas UTF-8, détecter l'encodage en le cherchant dans le code source de la page
- Si un encodage a été trouvé, enregistrer le texte dans un fichier .txt et convertir son encodage en UTF-8
- Trouver les occurrences du mot étudié dans le texte, et isoler les contextes dans lesquels celui-ci apparaît, dans des fichiers texte et HTML
- Compter le nombre d'occurrences dans chaque texte
- Organiser les résultats dans un tableau au format HTML

Pendant ce temps, nous devions également tenir compte de l'avancée du projet en maintenant un blog. Vous trouverez le mien dans la rubrique "Liens".

PHASE 2

La phase 2 va au-delà de la simple détection et de l'isolation de données. C'est là où nous manipulons les contextes afin de créer des nuages et des arbres qui vont mettre en évidence les mots qui apparaissent autour du mot étudié, en prenant en compte leur fréquence. C'est ce que vous trouverez dans les sections "Nuages de mots" et "Arbres de mots" de ce site.
La phase 2 prend fin avec la rédaction du site Internet, que vous lisez en ce moment.