Programmation et Projet Encadré: Semestre 2

Le projet encadré du deuxième semestre représente dans sa majorité un travail de programmation sur le langage Perl. Ce projet inclut plusieurs étapes à suivre et devoirs à réaliser.

Corpus du travail

Le journal français Le Monde constitue notre corpus du travail. On est en présence de l'archive du journal de l'année 2011 qui contient 17 fils RSS stockés dans des répertoires correspondants une fois par jour sur plusieurs semaines. Pour chaque fil il y a aussi une version textuelle obtenue via le logiciel Lexico3. Notre travail est divisé en trois grandes phases présentées ici comme des "boîtes à outils". Chaque boîte à outils contient un travail à réaliser.

Vous pouvez observer la scructure générale de notre corpus sur le schéma inséré ci-dessous. Chacune des boîtes à outils possède des résultats obtenus après chaque exercice. En même temps ce schéma représente l'organisation globale du site où vous pouvez prendre connaissance du travail destiné à chaque étape et passer aux résultats auxquels nous avons abouti après la réalisation de chaque phase.

Un peu plus bas nous présentons notre première initialisation avec le langage de programmation Perl.

Perl

Le projet présent nous mène à l'introduction du langage de programmation Perl. Le langage Perl a été conçu pour pouvoir analyser des données textuelles. C'est un langage adapté pour extraire des informations de fichiers textes. Afin d'effectuer des manipulations avec des textes, Perl utilise des expressions régulières qui constituent la base essentielle de la programmation sur Perl.

Effectivement dans le cadre de la "programmation pour les linguistes" nous nous sommes initialisés avec ce langage. Aussi pour cette raison-là nous avons eu à réaliser un tas d'opération via le langage de programmation Perl sur des fichiers au format texte, aussi bien que des fichiers XML.

Les opérations les plus importantes dans notre travail étaient celles de filtrage et de nettoyage de l'information textuelle. Le déroulement de l'application des différentes fonctions de Perl se manifeste dans les commentaires de chaque script que vous pouvez télécharger sur les pages des boîtes à outils.