Depuis que nous avons commencé les études de TAL, les gens nous posent souvent la question: qu'est-ce que c'est TAL?
Voilà une illustration concrète, ce projet pose d'abord des objectifs linguistiques à atteindre, et fait appel aux outils informatiques à la réalisation.
ENTRÉE: l'arborescence du titre et de chaque article du flux RSS du journal "Le Monde" pendant l'année 2016 dans un fichier XML et TXT,
OUTIL:script en perl
DIFFICULTÉ: parcourir dans l'arborescence, trouver une expression régulière puissant à couvrir toutes les balises intéressées afin de bien extraire RSS de toute l'année.
SORTIE: fichiers en txt et en xml contenant les textes du titre et de la description de chaque article pour BAO2
BUT: obtenir des fichiers de sortie tokénisés et étiquetés.
OUTIL1: la sortie en xml de Bao1--> Cordial, réalisé manuellement au sein du programme
OUTIL2: la sortie en txt de Bao1--> perl+TreeTagger, script
DIFFICULTÉ: le fonctionnement de perl+TreeTagger est très long en raison de la grosse quantité de RSS
SORTIE: via Cordial rubrique À la une, International et France
SORTIE: via TreeTagger
BUT: en parcourant une liste des tokens et des étiquettes, nous extrayons deux patrons : NOM ADJ et NOM PREP NOM à l'aide de divers outils
OUTIL1:avec l'entrée via cordial--> perl script
OUTIL2:avec l'entrée via treetagger--> perlscript
OUTIL3:xslt script
SORTIE: avec l'entrée du cordial résultat
SORTIE: avec l'entréevia TreeTagger résultat
BUT: Visualiser les résultats, ou des phénomènes particuliers avec des graphes.
OUTIL:patron2graph.exe
DIFFICULTÉ: utilisation du programme patron2graph.exe sur MacOS
SORTIE:voir plus de graphes