On réalise, à partir du fichier texte obtenu précédemment, un étiquetage morpho-syntaxique des mots.
Pour ce faire, on utilise deux méthodes différentes :
- Etiquetage avec Cordial : Cordial est un programme payant, disponible uniquement pour Windows et qui possède une interface graphique.
En sortie, on obtient un fichier texte ayant l'allure de 3 colonnes (forme, lemme, catégorie).
- Etiquetage avec TreeTagger : TreeTagger est un programme gratuit qui fonctionne en ligne de commandes.
On modifie le script de la BàO1 pour extraire en sortie un fichier XML.
On convertit d'abord le fichier texte du résultat de la BàO1 en iso latin.
Puis, on ouvre le fichier dans Cordial.On n'oublie surtout pas de modifier les paramètres pour obtenir le format désiré:
RESULTATS:
• Téléchargement des résultats en format cnr: Cliquez-ici
Pour l'étiquetage avec TreeTagger, nous avons intégré au script de BàO1 quelques lignes supplémentaires.
La syntaxe de TreeTagger: tree-tagger [options] <paramètres> <textein> <texteout>
La commande system permet de lancer un processus à partir de Perl. On va d'abord lancer la tokenization sur le fichier, le résultat est ensuite envoyé à tree-tagger. Les différentes options permettent d'avoir l'étiquetage en tokens (mots), en lemmes, etc. L'option -no-unknown permet de ne pas avoir de catégorie UNKNOWN dans le fichier étiqueté. Enfin, l'option -sgml permet à TreeTagger de ne pas interpréter les balises!
SCRIPT:
Pour télécharger le script en format perl: Cliquez-iciRESULTATS:
• Téléchargement des résultats en format xml: Cliquez-ici
BàO 2:
• Téléchargement de la boite à outils 2: Cliquez-ici
Par le biais de ce site, nous tenions à remercier les enseignants de cette 1ère année de Master sans qui nous ne serions pas là à vous faire une dédicace.Nous tenons à remercier Mr Fleury, Mr Daube et Mr Belmehoub