Ce projet de groupe nous a tout d’abord permis de partager nos idées et nos compétences.
Nous avons travaillé de façon chronologique pour plus mieux nous retrouver dans le travail à effectuer. C’est-à-dire que nous avons commencé par la recherche d’URLs et la constitution du programme. Ensuite, nous avons complété le blog, amélioré le côté esthétique de notre tableau de résultats puis créé les nuages. Enfin, nous nous sommes concentrées sur le site web.
Nous avons choisi comme thème le nucléaire, et nos recherches se sont focalisées sur les articles de presse en français, finnois, anglais (Etats-Unis) et allemand.
Nous avons rencontré des problèmes de natures diverses et variées:
Le premier est celui des langues. En effet, nous avions prévu d'étudier le cas des journaux italiens, mais nous nous sommes vite rendu compte que le nombre d’URL concernant le nucléaire était pauvre, l’Italie étant peu concernée par le problème de l'énergie nucléaire. C’est donc pour cette raison que nous avons préféré exclure l’italien de nos recherches.
Le second problème a été l’expression régulière utilisée pour extraire les occurrences en contexte. Avec de l’effort et de l’acharnement, nous avons finalement surmonté cette difficulté, notamment sur le "é" français.
Le troisième et dernier problème est celui de l'aspiration des pages web, car certains sites protègent leurs données. Mention spéciale aux Etats-Unis, dont une très grande partie des sites bloque cette aspiration, ce qui explique l'erreur sur les trois derniers liens. De même sur de nombreux liens précédents, on peu observer une absence de comptage d'occurences et d'extraction de contexte. Cela est dû au fait que nombre de ces pages ont été déplacées, le programme ne peut donc pas agir, même s'il indique le nouvel emplacement de la page.
En conclusion, ce cours nous a permis de réviser les fondamentaux de la programmation en Bash et d'approfondir nos connaissances dans ce langage. Nous avons par exemple découvert comment identifier l'encodage d'un fichier et comment le convertir en UTF-8.
Ce travail a été très intéressant à réaliser, même s'il n’a pas toujours été facile. Nous souhaitions pour cette raison remercier nos professeurs pour l’aide et l’attention qu'ils nous ont accordées. Cela nous a permis de progresser et de reconnaître nos erreurs.