Programmation et projet encadré 2

Conclusion

Enfin, on a réalisé ce projet de mettre en oeuvre une chaîne de traitement textuel semi-automatique, depuis la récupération des données de quatres rubriques du journal « Le Monde » de l´année 2019, ensuite leurs étiquetages par deux outils qui sont TreeTagger et Talismane, jusqu'à l'extraction de patrons morphosyntaxiques et leur présentation de manière contraste.

On a constaté que dans différente rubrique, elle possède sa propre lexique à l'intérieur du domaine spécifique. La rubrique 'A la une' est proche de 'Europe', car ils focalisent tous les deux sur l'actualité. Alors dans la rubrique 'Cinéma', les mots comme 'cinéma', 'film','comédie' sont largement fréquents. Dernièrement, concernant la rubrique 'Voyage', sa vocabulaire est autour du domaine du tourisme, et elle n'a pas beaucoup utiliser la suite des patrons comme 'Nom Pre Nom Pre' qui apparaît souvent dans les autres trois rubriques.

Vu que chaque rubrique représent ses caractéristiques et montre sa spécialité du domaine, cela rend possible de faire automatiquement la classification des fils RSS et on a fait cette expérience précédemment. Comme on a dit, un meilleur modèle est à chercher ...