Bienvenue sur mon site !

2012 Posted by Arij SEDIRI

Ce site est réalisé dans le cadre du cours «Programmation Projet encadré» du Master1 «PluriTAL » (Paris III, INALCO, Paris X) dans le but d'implémenter une chaîne de traitement textuel semi-automatique, depuis la récupération des données jusqu'à leur présentation. Le projet précédent, présentant des ambiguïtés lexicales engendrées par des formes de polysémie, a fait appel aux méthodes et applications informatiques nécessaires pour atteindre plusieurs objectifs tels que le recouvrement de corpus, la recherche d'information, la récupération d'un texte brut avec des commandes.. Ce projet, alliant tout ces objectifs à la maîtrise des nouveaux outils informatiques, vise à nous amener à acquérir les bases essentielles de normalisation des textes, de segmentation, d'étiquetage morphosyntaxique, d'extraction des contenus textuels dans des fils RSS ... Le traitement réalisé peut être découpé en quatre boîtes à outils.

               

Corpus et arborescence de travail

Dans un premier temps, il a fallu écrire un programme permettant de réaliser l'extraction des contenus textuels dans une arborescence de fils RSS, des flux de contenus gratuits, produits automatiquement en fonction des mises à jour du site web Le Monde.fr et recueillis au quotidien durant toute l’année 2011.



Le corpus de travail est constitué alors de l'ensemble des fils RSS disponibles sur le site du journal Le Monde, chacun de ces fils est accompagné de sa version "textuelle" au format Lexico3. Chaque rubrique RSS proposée par le site Le Monde possède un code qui lui est propre. Les fils sélectionnés sont organisés dans une arborescence qui parcourt l'année, le mois, le jour, l'heure et le fil RSS.

RSS.. qu'est ce que c'est ?

Sigle venant de l'anglais « Rich Site Summary ». Le terme RSS désigne une convention de structuration des fichiers diffusés dans un format compréhensible, définis par un langage informatique tel que le XML (Extensible Markup Language). On parle ici de la syndication de contenu Web. On désigne par « flux RSS » un fichier dont le contenu est produit automatiquement en fonction des mises à jour d’un site Web. Généralement, un flux RSS contient un titre (souvent celui d'un article), une description de l'article et un lien vers le site concerné.



Le travail à effectuer n'est finalement qu'une mise au point de quelques étapes.. Barbie vous présente les plus importantes