Conclusion

Durant ce semestre nous avons appris à maîtriser le langage perl, et à nous en servir dans le cadre de ce cours. Bien que le projet n'est pas été terminé, il a tout de même été très instructif quant à l'apprentissage et l'utilisation de perl mais aussi des différents outils pour exploiter des données XML. Nous avons été introduits à un nouvel étiqueteur, Talismane, et avons pu comparer les résultats d'étiquetage qu'il produisait avec ceux de Treetagger, qui avait déjà été présenté au premier semestre. Grâce aux extractions réalisées avec les différentes BAO, nous avons pu observer au final, que les deux étiqueteurs utilisés donnaient des résultats comportant un certain nombre d'erreurs, ce qui faussait l'extraction des patrons morpho-syntaxiques comme on a pu le voir dans la BAO3. Nous avons aussi eu l'occasion d'utiliser différentes méthodes d'extraction pour les patrons, et conclure que Xquery était la méthode la plus rapide. Pour finir voici quelques graphes réalisés à partir des résultats de la BAO3. Il y a un graphe par rubrique, et le fichier patron utilisé est celui de NOM ADJ car il donnait les résultats les plus probants. Ces graphes ont été produits à l'aide d'un programme disponible sur iCampus auquel on passe en argument un fichier sortie de la BAO 3, puis un fichier comportant un motif. On peut voir apparaître sur ces graphes les erreurs d'étiquetage. Pour avoir un graphe intéressant, il fallait choisir un motif en rapport avec la rubrique, chaque motif sera précisé.

Rubrique International, motif "élections"

Rubrique Société, motif "santé"

Rubrique Idées, motif "gouv"