Un des objectifs de ce projet était de créer un script afin de construire un corpus linguistique à partir d’URL. Les URL sélectionnées – une cinquantaine par langue – contiennent toutes au moins une occurrence du mot de notre recherche – geek. Le script a été en partie construit durant le cours de Programmation et Projet encadré avec l’aide de nos enseignants Serge Fleury et Jean-Michel Daube, et des autres étudiants de M1 du Master TAL (2019-2020).

 

Le script produit, est un script bash. Vous pourrez le trouver en lienplus bas dans la page – accompagné de commentaire pour une meilleur compréhension des étapes de fonctionnement – pour vous en faire une idée plus concrète. Son épopée est relatée sur notre blog dédié (et sa remarquable souris): GeekInLanguages

Ce que fait le script de manière générale, pour chaque URL :

-          Vérifier avec le code HTTP – qui doit être 200 pour un bon fonctionnement – que l’on ait accès aux informations de la page web (avec la commande curl)

-          Aspirer la page html (avec la commande curl sur l’url)

-          Récupérer les données textuelles – le dump (avec la commande lynx sur la page aspirée)

-          Vérifier l’encodage de la page web – qui doit être en UTF-8 –, et le cas échéant la convertir – en UTF-8 (avec la commande iconv)

-          Créer un fichier contenant uniquement le contexte (2 lignes au-dessus et en-dessous) autour du mot cible – Filtrage Txt (avec la commande egrep sur le fichier dump)

-          Créer un fichier – Filtrage Html – où toutes les occurrences du mots apparaissent au milieu d’un contexte de 3 lignes (avec l’application du script perl minigrep sur le fichier dump)

-          Créer un index lexical du fichier dump

-          Créer une liste de bigramme du fichier dump

Le script reproduit toutes ces étapes pour l’ensemble des URL de chaque fichier. Nous avons un fichier d’URL par langue – français, anglais, allemand, italien, japonais. Le résultat du script est affiché sous forme de tableau.

 

Nous avons également produit avec le script :

-          Un fichier dumpglobal qui est la fusion de tous les dumps de chaque URL. En d’autres mots, il contient l’ensemble des unités textuelles des URLS

-          Un fichier contexteglobal qui est la fusion de tous les fichiers Filtrage Txt. En d’autres mots, il contient tous les contextes textuelles de notre mot

Pour chacun de ces daux fichiers,nous avons pris la liberté de produire d'autres ressources :

            o          Un index des mots de chaque fichier

            o          Une liste des bigrammes bigramme ( 2 mots qui se suivent)

Certaines de ces ressources n'ont été utilisées que pour certaines langues. Les données utilisées sont situées sur cette page.

 

Le fichier dumpglobal et contexteglobal ont par la suite été analysés avec iTrameur – outil textométrique. Pour ce faire, nous avons dû, lors de la création de ces fichiers, les baliser – à l’aide de la commande echo – et les nettoyer de toutes balises parasites – à l’aide de la commande egrep et d’une expression régulière adéquate.

 

Remarque : en japonais, dont l’écriture ne comporte pas d’espaces, l’analyse sur iTrameur avait un prérequis : la segmentation préalable par un programme annexe. Corentin a utilisé une bibliothèque dédiée dans un script python appelé au sein de son script bash.

 

 

Script_EN-FR-DE-IT Script de base Script_JP Script pour le Japonais