BOÎTES À OUTILS

Présentation projet

- Présentation projet -

Ce semestre pour notre projet encadré, nous travaillons avec un nouveau langage efficace et puissant en terme de traitement des corpus : PERL.  

L'application de ce langage en cas pratique est étroitement lié aux expressions régulières, ce qui explique sa grande capacité de traiter les données textuel sur l'aspect général du texte . À travers le projets, nous allons nous familiariser avec ce langage et finir par la maîtriser. 

En parallèle avec PERL, un autre langage aussi très présent dans le domaine de TAL sera utilisé dans ce projet : Python. 

Nous allons écrire des programmes en Python qui réalisent les même traitement que ce que nous allons faire en PERL. Ce qui est non seulement une manière de nous entraîner sur la maîtrise du langage. Mais aussi nous permets de comparer et analyser les deux langages en action. 

Le projet est séparé en 3+1 parties, et il prend une arborescence de fils RSS  récupéré du journal "le Monde" comme corpus à traiter:

- BAO 1 Extraction des titres et descriptions

- BAO2 Étiquetage des textes (brutes et structurés) à l'aide de TreeTagger et UDpipe

- BAO3 Extraction des patrons et des relations

- BAO4 Visualisation des données extraites sous forme de Graphe


À PROPOS DE MOI :

Je m'appelle Lingyun GAO. Étudiante inscrite à la Sorbonne  Nouvelle et je suis actuellement en master 1 Traitement automatique des langues.

J'ai fait  une licence en langue et littérature françaises à Pékin et je suis venu à Paris pour poursuivre mes études en Didactique des langues. 

J'ai effectué  mon Master 2 DDL en alternance et je travaillait principalement sur la conception des e-formations pour les examinateurs des diplômes DELF/DALF. Grâce à cette expérience je me suis réorientée vers le TAL.