Boite à Outils 1 : l'Extraction de Texte
Dans cette première boite à outils, nous avons appris à extraire du texte d'un flux RSS. Nous avons sélectionné et récupéré tous les titres des articles parus dans LeMonde en 2017, avec leur description. Le contenu textuel qui nous intéresse se trouve à l'intérieur des balises <item>. On cherche à y extraire le titre et la description de chaque article, donc ce qui se trouve entre les balises <title> et <description> . |
Rubrique | XML::RSS | RegEx |
International | .txt .xml | .txt .xml |
Europe | .txt .xml | .txt .xml |
Société | .txt .xml | .txt .xml |
A ce moment du projet, le texte extrait est écrit sur 2 fichiers de sortie : une sortie texte (encodage UTF-8), et une sortie XML.
Ce site a été créé par Léa LAMOTTE & Sara BOUHMADOU dans le cadre du cours "Projet Encadré"- Master 1 TAL
Mai 2018