Procédure 2 : BàO 2


ÉTIQUETAGE DU TEXTE

 
 
 

L'étiquetage est une phase élémentaire du traitement automatique des langues.

Il concerne non seulement l'étiquetage des éléments de part-of-speech (POS),

mais aussi celui de parsing, par exemple en dépendance.

Emplois

Nous citons quelques exemples pour vous fait mieux comprendre l'importance de ce travail dit élémentaire.

Statistiques textuelles

Après tokeniser et étiqueter les textes, nous pouvons travailler sur, par exemple, l'usage d'un mot tout au long du temps si la date est enregistré dans le corpus. Citons l'exemple de « salariés » et « travailleurs » dont nous avons discuté en classe.

Ngram

Un n-gramme est une sous-séquence de n éléments construite à partir d'une séquence donnée. Son idée était que, à partir d'une séquence de lettres donnée il est possible d'obtenir la fonction de vraisemblance de l'apparition de la lettre suivante. (Wikipédia, 2020)

Extraction d'informations

L'extraction d'informations est aussi un domaine important dans le traitement automatique des langues. Par exemple, nous voulons savoir le sens principal d'une longue phrase. À l'aide des étiquettes (POS et parsing en dépendance, nous pouvons extraire la structure SVO de la phrase, soit probablement son sens principal.

Associations entre des mots ou des articles

Nous pouvons voir, par exemple, des mots relatifs autour d'un motif à base d'un corpus. c'est intéressant et utile pour avoir une vision globale d'un nouveau concept, juste comme un mindjet.

...

 
 
 

Programmation

Après avoir nous familiarisé avec cette procédure, nous allons vous présenter notre script final.
Il combine les deux étiqueteur, soit Treetagger et Talisamne.

Pour assurer le fonctionnement de ce script, il faut télécharger ce fichier
et le décompresser dans le même dossier où se trouve le script et le corpus 2019.

Voici quelques remarques à propos de notre script :

01. Commande
perl BaO2-etiquetage.pl repertoire-a-parcourir code-rubrique

02. Moyen
On extrait des contenus à l'aide des expression régulières et les étiqueter par 2 moyens : Treetagger et Talismane

03. Fonction supplémentaire
À la fin de la programme, il nous affiche le temps de calcul.

04. Entrée
Le programme prend en entrée le nom du répertoire-racine contenant les fichiers à traiter et le nom de la rubrique à traiter parmi ces fichiers.

05. Sortie 👇 👉

Résultats