Démarche

Cette page décrit l'organisation de notre travail et les différentes étapes du projet, qui sont décrites une à une dans les différentes pages de ce site.

Description du projet

Le projet "la vie des mots" est un projet multilingue visant à explorer l'utilisation d'un mot ou d'une expression particulière dans différentes langues. Nous avons choisi de travailler sur l'expression "11 Septembre" et sa traduction dans nos langues de travail : français, anglais, allemand et arabe.

Ce projet nous a amenés notamment à apprendre à constituer un corpus de façon semi-automatique, à le rendre exploitable automatiquement et à utiliser divers outils de textométrie pour en déduire des données linguistiques.

Etapes

1 : Organisation

Pour mener à bien un projet en groupe, quel qu'il soit, il est nécessaire avant tout de constituer et d'organiser l'environnement de travail sous forme de répertoires et de sous-répertoires pour une meilleure fluidité. Cela permet aussi de pouvoir travailler en groupe sur des scripts communs. Le nôtre se constitue de :

2 : Consitution du corpus

L'étape de constitution du corpus visait à nous enseigner les méthodes pour constituer un corpus utilisable. Il faut veiller notamment à avoir une certaine uniformité dans le choix des articles, puisque nous cherchons à découvrir des différences pertinentes dans l'utilisation de notre cible, l'expression "11 Septembre". La constitution de la liste d'articles constitutifs du corpus s'est fait à la main.

3 : Script d'exploitation du corpus

Mais pour aspirer lesdits articles et en faire un corpus facilement exploitable, nous avons utilisé une méthode automatique. Pour cela, nous avons écrit en groupe un script bash gérant l'aspiration, l'organisation des données et leur concaténation. Cette étape nous a aussi fait gérer des problèmes d'encodage et les diverses difficultés liées à la création et à l'utlisation d'un script commun. C'est là que toute l'utilité de l'étape 1, l'organisation de l'environnement de travail, prend son sens.

4 : Analyses

Avec notre corpus prêt, nous avons pu découvrir divers outils de textométrie et de statistiques textuelles, pour explorer le maximum d'aspects de notre corpus. A cette étape, nous avons pu voir comment explorer un corpus, comment orienter nos recherches et obtenir des résultats linguistiques pertinents.

5 : Conclusion

Il s'agit enfin de synthétiser notre travail et de présenter ce que l'on a découvert.