Bienvenu(e) sur mon site!
La réalisation de ce site s’inscrit dans le cadre du semestre 2 du projet encadré. Il consiste à réaliser quatre boîtes à outils (BAO) qui extraient, étiquettent des données textuelles sur l’ensemble des fils RSS 2020 du journal Le Monde.
Le corpus contient 12 sous-dossiers correspondant aux 12 mois de l'année. A l'intérieur de ces sous-dossiers, on y trouve plusieurs sous-dossiers correspondant au nombre de jour de chaque mois. Chaque jour du mois contient des flux RSS de différentes rubriques au format .txt,.xml. Les rubriques ont toutes un identifiant unique
3208 => "une", 3210 => "international", 3214 => "europe", 3224 => "societe", 3232 => "idees", 3234 => "economie", 3236 => "actualite_medias", 3242 => "sport", 3244 => "planete", 3246 => "culture", 3260 => "livres", 3476 => "cinema", 3546 => "voyage", 65186 => "technologies", 8233 => "politique", "env_sciences" => "sciences"
Pour ce Projet nous avons choisi de travailler que sur quelques rubriques