Phase 1 : Traitement des URLs et récupération des données

La première phase du projet est consacrée au traitement informatique des URLs recueillies pour en extraire les données pertinentes pour la deuxième phase, l’analyse de notre corpus de textes. Nous avons donc regroupé nos URLs dans des fichiers textes, un fichier correspondant à chaque langue. Nous avons écrit un script qui permet de parcourir chaque fichier et chaque ligne de ce fichier (donc chaque URL) pour ensuite faire un traitement. Nous avons vérifié que le code HTTP des URLS était bien 200 pour continuer le traitement puis que l’encodage de la page était bien en UTF-8. Dans ce cas le traitement pouvait être fait. Nous avons récupéré la page aspirée (en html), le texte entier en .txt (dump), la fréquence de notre motif, l’index et les bigrammes correspondant à chaque texte, les contextes autour de notre motif en .txt et en .html (avec l’utilisation du programme minigrep). Les URLs qui n’étaient pas en UTF-8 ont subi un traitement si l’encodage était connu de la commande iconv, dans le but de poursuivre le traitement. Sinon ces URLs ont été ignorées et le traitement n’a pas pu être fait. Nous avons écrit deux scripts, l’un pour le français, l’anglais et l’italien. L’autre pour le chinois puisqu’il fallait un traitement supplémentaire concernant la segmentation des mots. Notre motif contenait notre mot d’intérêt ainsi que des variantes comme le pluriel ou la majuscule. Un tableau HTML a été créé à partir de ce script avec le résultat de ce traitement sur les quatre fichiers correspondant aux quatre langues.

Les fichiers contenant les textes entiers (dump en .txt) ont été concaténés. Les fichiers contenant le contexte (contexte en .txt) ont également été concaténés en vue de l’analyse de la phase 2. Nous avons donc obtenu un fichier dump et un fichier contexte par langue au format .txt pour la suite des opérations.

Le programme ayant servi à la concaténation a été mis à notre disposition ici.

Le programme minigrep ayant servi à l’extraction des contextes en .html a été mis à notre disposition ici.