Xiaoxia & Wenfei - BàO

Nous citons quelques exemples pour vous fait mieux comprendre l'importance de ce travail dit élémentaire.

Statistiques textuelles

Après tokeniser et étiqueter les textes, nous pouvons travailler sur, par exemple, l'usage d'un mot tout au long du temps si la date est enregistré dans le corpus. Citons l'exemple de « salariés » et « travailleurs » dont nous avons discuté en classe.

Ngram

Un n-gramme est une sous-séquence de n éléments construite à partir d'une séquence donnée. Son idée était que, à partir d'une séquence de lettres donnée il est possible d'obtenir la fonction de vraisemblance de l'apparition de la lettre suivante. (Wikipédia, 2020)

Extraction d'informations

L'extraction d'informations est aussi un domaine important dans le traitement automatique des langues. Par exemple, nous voulons savoir le sens principal d'une longue phrase. À l'aide des étiquettes (POS et parsing en dépendance, nous pouvons extraire la structure SVO de la phrase, soit probablement son sens principal.

Associations entre des mots ou des articles

Nous pouvons voir, par exemple, des mots relatifs autour d'un motif à base d'un corpus. c'est intéressant et utile pour avoir une vision globale d'un nouveau concept, juste comme un mindjet.