Préconçu n'est peut être pas le mot d'ordre de ce site; il se base davantage sur notre envie de construire quelque chose correspondant à l'organisation de nos têtes: ne pas adopter une structuration prédéfinie, mais fonctionnelle et intuitive, et surtout optimisée pour présenter notre projet. Ainsi, toutes les pages de ce site se divisent en trois grandes parties: une partie explication, une partie liens utiles et une partie navigation.

La structure impliquant la mise en page, les pages HTML ainsi que le CSS ont été entièrement rédigées par nos petites manos afin de garantir une compatibilité maximale entre la mise en place et la mise en pratique de nos idées. Nous n'avons utilisé que des images créées POUR le projet, soit numériquement (merci la tablette graphique!) soit physiquement (scannées à partir des super[bes] aquarelles d'Angèle P., ghost member de la CSS Team) >>> print "THANX! *-*\n";

Projet Boîtes à Outils

En quoi consiste ce projet "Boîtes à Outils"? Il s'agit d'apprendre à utiliser des outils divers de traitement d'un corpus structuré (XML) correspondant chacun à une fonction spécialisée dans le traitement: filtrage (BàO 1) et étiquetage (BàO 2) des données, puis extraction (BàO 3) et représentation de patrons syntaxiques (BàO 4).


Pour une meilleure visualisation des boîtes à outils, un schéma récapitulatif:


					 -----------------JMD:script Perl--------------
									 	  	 x fichiers
			         x fichiers					  	  de termes
		 		  txt brut	   ------->    Cordial   -------> 	 associés à
				(1/rubrique)					   	  1 patron

Corpus   →   FILTRAGE	 1 script avec Regexp        → 	     ETIQUETAGE 	→  	  EXTRACTION	  →	PATRON2GRAPHE
de fils        BAO1	 1 script avec XML::RSS		        BAO2	     		DE PATRON BAO3		    BAO4
  RSS     										 	
				 x fichiers						 x fichiers
				     XML      	   ------->  x fichiers  ------->  	  de termes
								 XML		     	 associés à
							     TreeTagger		  	  1 patron
					 --------------requête XPath + XSLT------------
						       XML::XPath / xsltproc			

Le corpus utilisé contient les fils RSS (pour avoir plus d'informations sur le RSS, lien à droite!) du journal on-line LeMonde.fr; récupérés quotidiennement à 19h durant toute l'année 2011. Ce travail faramineux a été automatisé et transmis par SF (fichier .zip de + de 300Mo).

Lien


ToMail