Conclusion

Grâce à ce cours, nous nous initions au langage Perl qui nous permet de traiter facilement de l'information de type textuel. En maîtrisant ce langage, nous sommes capable de traiter de nombreux données textuelles avec l'efficacité. D'ailleur, les outils à traiter automatiquement les langues naturelles, tels que Talismane, TreeTagger, patronGraphe, sont bien présentés. Nous avons maîtrisé les langages XPath et XQuery (manipulation de fichier XML), en pratiquant bien des fois.

Ces outils et technologies nous offrent la possibilité d'augmenter de milliers de fois l'efficacité de traitements textuels. Pourtant, la qualité de travail se dépend à la fois de la capacité d'annotateur automatique et de notre travail manuel. Afin d'optimiser ce travail, il nous faut bien étudier notre corpus, sur son genre linguistique, son thème, sa forme, sa terminologie et ect. Et puis, en considération de ses traits linguistiques, nous pouvons essayer de choisir l'outil le plus pertinent à traiter le corpus.

Également, nous pouvons aussi faire des pré-traitements avant d'effectuer ces traitements automatiques. Par exemple, enlever les ponctuations pour étudier sa terminologie, nettoyer les "stop words" au niveau sémantique. Tous ces traitement, dit manuel, risque de perfectionner notre travail sur les données textuelles.

Mon projet du premier semèstre

Il s'agissait d'utiliser les languages bash pour aspirer des pages en ligne concernant le sujet "MASCULINITÉ" en français, chinois et coréen.

CONTACT

Email
yimei.yue@sorbonne-nouvelle.fr