Nous citons quelques exemples pour vous fait mieux comprendre l'importance de ce travail dit élémentaire.
Après tokeniser et étiqueter les textes, nous pouvons travailler sur, par exemple, l'usage d'un mot tout au long du temps si la date est enregistré dans le corpus. Citons l'exemple de « salariés » et « travailleurs » dont nous avons discuté en classe.
Un n-gramme est une sous-séquence de n éléments construite à partir d'une séquence donnée. Son idée était que, à partir d'une séquence de lettres donnée il est possible d'obtenir la fonction de vraisemblance de l'apparition de la lettre suivante. (Wikipédia, 2020)
L'extraction d'informations est aussi un domaine important dans le traitement automatique des langues. Par exemple, nous voulons savoir le sens principal d'une longue phrase. À l'aide des étiquettes (POS et parsing en dépendance, nous pouvons extraire la structure SVO de la phrase, soit probablement son sens principal.
Nous pouvons voir, par exemple, des mots relatifs autour d'un motif à base d'un corpus. c'est intéressant et utile pour avoir une vision globale d'un nouveau concept, juste comme un mindjet.
01. Commande
perl BaO2-etiquetage.pl repertoire-a-parcourir code-rubrique
02. Moyen
On extrait des contenus à l'aide des expression régulières et les étiqueter par 2 moyens : Treetagger et Talismane
03. Fonction supplémentaire
À la fin de la programme, il nous affiche le temps de calcul.
04. Entrée
Le programme prend en entrée le nom du répertoire-racine contenant les fichiers à traiter et le nom de la rubrique à traiter parmi ces fichiers.
05. Sortie 👇 👉