Le Master pluriTal, dans le cadre duquel nous avons réalisé ce projet, est cohabilité entre trois établissements : Inalco (Institut national des langues et civilisations orientales), Université Paris III - Sorbonne Nouvelle, Université Paris X - Nanterre.

Pour le projet encadré du second semestre, il nous a aussi été demandé de réaliser un site pour présenter nos travaux respectifs. Mais à la différence du premier semestre où nous débutions et où nous avons dû utiliser des templates de sites, celui-ci a été entièrement créé par nos soins en langage Ruby .

Bien que la création des sites en Ruby se fasse souvent sur le framework Rails et étant donné que notre contenu ne nécessite pas un site dynamique avec une base de données, nous avons opté pour le framework Middleman, un générateur de sites statiques.

Id white 32px À propos de nous

Milena av Milena Chaîne

Étudiante en Master 1 TAL à l'Inalco.

Après des études d'anglais à l'ENS de Lyon, elle a décidé de compléter sa formation en linguistique informatique, en s'intéressant notamment à l'anglais et l'allemand.

Mail

Margaux av Margaux Duhayon

Étudiante en Master 1 TAL à l'Inalco.

Après une licence LLCER Asie et Pacifique Khmer à L'INALCO, elle a décidé de continuer en master dans la langue cambodgienne tout en se spécialisant dans l'informatique. Ce que permettait le master Traitement Automatique des Langues.

Lien Linkedin

Mail

Ferial av Ferial Yahiaoui

Étudiante en Master 1 TAL à l'Inalco.

Après un premier master recherche en Sciences du langage à l'Université Paris III - Sorbonne Nouvelle, elle a décidé de se réorienter vers un parcours professionnalisant en optant pour le traitement automatique des langues.

Mail

Computer 32px À propos du master

Le master Traitement automatique des langues est un master cohabilité par les universités Paris III, Paris X et l'Inalco. Il propose une formation de 3ème cycle en ingénierie linguistique avec, en M1, un tronc commun aux étudiants des trois universités partenaires comprenant, entre autres, des cours de linguistique, programmation, codages des écritures, sémantique, etc. En deuxième année (M2), 3 parcours sont possibles : soit recherche et développement, soit Ingénierie multilingue, pour les étudiants ayant de bonnes connaissances en programmation, soit Traductique et gestion de l'information, pour les étudiants ayant de bonnes connaissances en langues et traduction.

Source de la description

Ruby 32px À propos de Ruby & Women On Rails

Après notre expérience avec la création d'un site web au premier semestre, nous souhaitions toutes les trois approfondir nos connaissances en développement web. Nous avons choisi le langage de programmation Ruby en raison de sa flexibilité. Nous avons également reçu l'aide précieuse de la section parisienne du groupe Women On Rails, un groupe de travail qui nous a accompagné au cours du semestre et qui nous a permis de découvrir ce langage dans un environnement bienveillant.

Nous avons essayé de tirer parti du maximum des outils proposés par Ruby et Middleman pour créer notre site. Ce fut une expérience très enrichissante et une introduction plus formelle à l'univers du développement web qui, nous l'espérons, s'avérera utile tant l'année prochaine qu'à la suite du master.

La version finale du site se présente sous la forme de pages HTML, mais l'intégralité de notre code Ruby/HTML (ainsi que nos scripts) est disponible sur la page de notre projet GitHub, qui a été un autre outil essentiel de notre travail de groupe.

Github mark light 32px À propos de GitHub

Pour notre projet et notre volonté de travailler à trois, nous avons utilisé la plateforme open source GitHub.

GitHub est une plateforme qui permet aux développeurs de stocker un code source et de suivre l'évolution de ce code. Il permet d'être à plusieurs sur le même code en le téléchargeant sur sa propre machine pour ensuite le "pusher" sur la plateforme commune. GitHub possède son propre langage que nous avons appris seules au fur et à mesure que notre projet avançait. Cela nous a permis de travailler sur le même code sans être réunies dans la même pièce.

C'est une plateforme et un langage importants dans le monde professionnel, dont la maîtrise n'est pas évidente, et il nous semble qu'il serait pertinent d'encourager son utilisation le plus tôt possible au sein du master.

Notre projet se trouve sur la plateforme : projet GitHub

Sheet transparent white 32px À propos du projet

L'objectif de ce projet de boîtes à outils (BAO) est de créer une chaîne de traitement semi-automatique de données textuelles, depuis leur recueil jusqu'à leur analyse. Plus spécifiquement, le corpus analysé cette année est composé de l'ensemble des fils RSS du journal Le Monde au cours de l'année 2017, classés chronologiquement et divisés par rubriques (ex. International, Culture, etc.). On souhaite mettre en place une chaîne de traitement (composée de quatre boîtes à outils successives) pour traiter ce corpus :

  1. d'abord, on choisit une rubrique dont on extraira tous les titres et résumés d'articles dans les fils RSS
  2. on traitera ensuite ces données avec deux étiqueteurs morpho-syntaxiques, TreeTagger, et Cordial, qui étiquèteront nos données de façons différentes
  3. on extraira ensuite dans ces données des patrons morpho-syntaxiques, qu'on compilera dans des fichiers
  4. à partir de ces fichiers, on créera des graphes représentant les co-occurents de ces patrons

D'un point de vue plus informatique, le schéma ci-dessous illustre les différents outils employés au cours de ces étapes :

Bao schema white

L'intérêt du projet est donc double : on va bien sûr essayer d'analyser les données obtenues en fin de chaîne. Mais il s'agit également de comparer différents outils (Cordial et TreeTagger) et méthodes (Perl et XSLT) d'étiquetage.

Nous avons décidé de prendre chacune 3 rubriques différentes mais dans un thème assez similaire.


Milena a travaillé sur les rubriques :
- La rubrique 3214 qui est la rubrique Europe.
- La rubrique 3210 qui est la rubrique International.
- la rubrique 3224 qui est la rubrique Société.


Ferial a travaillé sur les rubriques :
- La rubrique 3476 qui est la rubrique Cinéma.
- La rubrique 3232 qui est la rubrique Idées.
- la rubrique 3260 qui est la rubrique Livres.


Margaux a travaillé sur les rubriques :
- La rubrique 3546 qui est la rubrique Voyage.
- La rubrique 651865 qui est la rubrique Tech.
- la rubrique 3236 qui est la rubrique Média.