Mot "impôt" sur le web

LA VIE MULTILINGUE DES IMPOTS

Un projet du master plurital garanti sans comptabilité

Bienvenue sur notre site !

Non, n’ayez pas peur ! Vous pouvez accéder à nos travaux sans entrer votre numéro fiscal et il ne vous en coûtera rien.

Nous sommes trois étudiant.es inscrits au cours « Programmation et projet encadré 1 » de la première année du master PluriTAL. Dans le cadre du projet « La vie multilingue des mots sur le web », nous avons choisi d’étudier celle du mot « impôt » dans les différentes langues que nous pratiquons. Les documents et résultats auxquels vous aurez accès sur ce site sont le fruit d’un long travail d’équipe aux coulisses duquel vous pouvez accéder sur notre blog .

Deux présupposés linguistiques sous-tendent notre projet. Nous partons d’abord du principe que le sens d’un mot se détermine en fonction du contexte dans lequel il est produit. Ce principe établi, nous pouvons dire ensuite que la traduction exacte n’existe que dans le cas où les mêmes attractions lexicales s’observent autour du mot traduit. Nous analyserons donc le sens que prend le mot « impôt » dans nos langues cobayes, et ce d’après les mots qui gravitent autour de ce terme dans les articles de presse. Nous comparerons les résultats obtenus pour chaque langue afin de conclure sur le traitement et la perception de ce mot dans les différentes cultures.

POURQUOI UN MOT SI PEU ATTRAYANT ?

Nous vous le concédons, si vous revenez d’un projet sur l’alcool ou le tourisme spatial, vous ne devez pas crier « youpi » à l’idée de lire un projet sur les impôts. Le choix de notre mot a été un sujet d’hésitation. Nous penchions au début pour le mot générique « argent », en nous disant que le rapport à ce dernier variait dans les différentes cultures et que cela devrait être perceptible linguistiquement. Mais on nous a conseillé d’éviter ce mot, de peur que les contextes soient trop homogènes. Nous avons donc recentré ce champ sémantique sur le mot « impôt ». L’imposition est un enjeu majeur dans nos sociétés actuelles. La politique fiscale d’un pays et le regard qu’il porte sur ce prélèvement sont des traits culturels importants qui traduisent une tendance politique globale. Nous ne prétendons pas parvenir à une telle finesse sociologique mais nous espérions déceler une différence de point de vue quant à l’impôt selon les cultures (avec des clichés en tête : les anglais conservateurs et les français taxeurs de riches par exemple).

LANGUES DE TRAVAIL

Julie s’est occupée de l’anglais britannique avec le motif : tax / taxes

Yulia s’est occupée du russe et du biélorusse avec les motifs : налог et падатак

Baptiste s’est occupé de l’allemand et du français avec les motifs : impôt/ fiscal/ taxe et Steuer

DEMARCHE ET ETAPES

COLLECTE D’URLS :

Il nous a fallu dans un premier temps constituer un corpus d’une cinquantaine d’urls au minimum par langue. Nous avons choisi comme matière première les articles de presse. Nous avons essayé dans la mesure du possible de prendre des journaux de bords politiques divers et de façon équitable.

REDACTION DU SCRIPT :

Il s’agit du cœur du projet. Nous avons rédigé un script bash traitant les urls sélectionnées, sous la direction bienveillante et appréciée de messieurs Serge Fleury et Pierre Magistry. Cette étape vise à traiter les urls, régler les problèmes éventuels qu’elles posent et en extraire les données textuelles que l’on souhaite soumettre à notre analyse.

ANALYSE TEXTOMETRIQUE SUR iTRAMEUR :

Une fois les données textuelles de nos urls extraites, nous constituons des corpus que nous soumettrons au logiciel iTrameur avec lequel nous pourrons mettre au jour les attractions lexicales qui se font autour du mot « impôt » dans les langues. Nous les commenterons et comparerons.

NUAGES DE MOTS

Dernière étape de notre projet, nous avons créé des nuages de mots avec les mots extraits des urls qui gravitent autour de notre motif. Cette étape gratifiante fait plaisir à l’œil et est assez parlante.

CONSULTEZ NOTRE BLOG DE TRAVAIL

Notre script

Notre code fait environ 300 lignes. Nous avons tenté de l’optimiser au maximum en créant une fonction "traitement_commun" qui regroupe les traitements à effectuer sur chaque cas, indépendamment de l’encodage. Ce script contient également le nettoyage des fichiers et leur concaténation. Cela nous permet d’avoir des fichiers propres à envoyer sur iTrameur pour notre analyse.

Afin d’exécuter ce script, il convient de suivre les étapes suivantes :

1. Avoir un environnement pour lancer le script bash
2. Créer un environnement de travail identique à celui créé en classe
3. Installer un environnement perl pour exécuter les programmes minigrep.pl et detect-encoding.pl. Le programme minigrep.pl est à placer dans le dossier DUMP-TEXT et le programme detect-encoding.pl est à placer dans le dossier PROGRAMMES.
4. Dans le programme minigrep.pl, il conviendra de mettre le motif souhaité.
Une fois fait, vous pourrez lancer notre script à l’aide de la commande suivante :
bash ./PROGRAMMES/script.bash URLS TABLEAUX "\bпадат(ак|ка|ку|кам|ке|к(і|i)|каў|кам|кам(і|i)|ках)?\b|\bналог(а|у|ом|е|и|ов|ам|ами|ах)?\b|\btax(es|p[a-z]+)?\b|\b([a-zA-Z]{4,})?[sS]teuern?([a-zA-Z]{2,})?\b|\b(impôts?|fisca(le?|ux)|taxes?)\b"

#!/usr/bin/bash
#Ce script va nous permettre de récupérer tous les URLs de chaque fichier pour les classer dans un tableau
#On aura un tableau par fichier d'URL
#Notre programme demande donc trois arguments : le dossier qui contient les fichiers URls, le dossier qui contient notre page HTML pour créer notre tableau, et le motif
#Le programme doit s'exécuter depuis le dossier PROJET-SUR-LE-MOT de l'environnement de travail
#Voici la commande :
# bash ./PROGRAMMES/script_v2.bash ./URLS ./TABLEAUX/ "\bпадат(ак|ка|ку|кам|ке|к(і|i)|каў|кам|камі|ках)?\b|\bналог(а|у|ом|е|и|ов|ам|ами|ах)?\b|\btax (es|p[a-z]+)?\b|\b([a-zA-Z]{4,})?[sS]teuern?([a-zA-Z]{2,})?\b|\b(impôts?)\b|\b(fisca(le?s?|ux))\b|\b(taxes?)\b"
###########################################################
#On choisit trois variables pour stocker les arguments que l'ont vient de spécifier
URLS=$1
TABLEAUX=$2
MOTIF=$3
mkdir DUMP-TEXT/DUMP-NETTOYAGE
###########################################################
#Création d'une fonction générale pour les traitements
traitement_commun () {
#-----------------------------------------
#On crée l'index à partir des fichiers .txt
egrep -i -o "\w+" ./DUMP-TEXT/"$compteur_tableau-$compteur_url".txt | sort | uniq -c | sort -nr > ./DUMP-TEXT/"index_$compteur_tableau-$compteur_url".txt
compteur_motif=$(egrep -i -o -c "$MOTIF" ./DUMP-TEXT/"$compteur_tableau-$compteur_url".txt )
#-----------------------------------------
#On va créer les bigrammes avec les prochaines commandes
sed "s/ /\n/g" ./DUMP-TEXT/"$compteur_tableau-$compteur_url".txt | egrep -o "\b.*\b" | head -n -1 > ./DUMP-TEXT/"bigramme1_$compteur_tableau-$compteur_url".txt
tail -n +2 ./DUMP-TEXT/"bigramme1_$compteur_tableau-$compteur_url".txt > ./DUMP-TEXT/"bigramme2_$compteur_tableau-$compteur_url".txt
paste ./DUMP-TEXT/"bigramme1_$compteur_tableau-$compteur_url".txt ./DUMP-TEXT/"bigramme2_$compteur_tableau-$compteur_url".txt | sort | uniq -c | sort -rn > ./DUMP-TEXT/"bigramme_entier_$compteur_tableau-$compteur_url".txt
#-----------------------------------------
#Création du contexte .txt avec egrep
egrep -i -C1 "$MOTIF" ./DUMP-TEXT/DUMP-NETTOYAGE/"$compteur_tableau-$compteur_url"_nettoyé.txt > ./CONTEXTES/"$compteur_tableau-$compteur_url".txt
#-----------------------------------------
#On crée nos contexte en .html avec minigrep perl ./DUMP-TEXT/minigrepmultilingue-v2.2-regexp/minigrepmultilingue.pl "UTF-8" ./DUMP-TEXT/"$compteur_tableau-$compteur_url".txt ./DUMP-TEXT/minigrepmultilingue-v2.2-regexp/MOTIF.txt
mv resultat-extraction.html ./CONTEXTES/"$compteur_tableau-$compteur_url".html
#-----------------------------------------
#On concatène les dumps
echo -e "<dump=\""./DUMP-TEXT/DUMP-NETTOYAGE/"$compteur_tableau-$compteur_url""\">\n" >> DUMP-TEXT/dump_"$fichier"_concat.txt
cat ./DUMP-TEXT/DUMP-NETTOYAGE/"$compteur_tableau-$compteur_url"_nettoyé.txt >> ./DUMP-TEXT/dump_"$fichier"_concat.txt
echo -e "\n</dump> §\n" >> ./DUMP-TEXT/dump_"$fichier"_concat.txt
#-----------------------------------------
#On concatène les contextes
echo -e "<contexte=\""./CONTEXTES/"$compteur_tableau-$compteur_url".txt"\">\n" >> CONTEXTES/contexte_"$fichier"_concat.txt
cat ./CONTEXTES/"$compteur_tableau-$compteur_url".txt >> ./CONTEXTES/contexte_"$fichier"_concat.txt
echo -e "\n</contexte> §\n" >> ./CONTEXTES/contexte_"$fichier"_concat.txt
}
############################################################
#En-tête du fichier html
echo "<html><head> <meta charset =\"UTF-8\"/> <style>
table {
border:1px solid #000000;
border-collapse:collapse;
table-layout:fixed;
}
th {
background-color:#BDBDBD;
text-align: center;
}

td {
font-size:90%;
text-align: center;
}

table tr:nth-child(odd)
{
background-color:#F2F2F2;
}

caption
{
font-size:10px;
caption-side: bottom;
}

</style></head><body>" > $2/tableau.html
###########################################################
#On va créer un compteur pour effectuer chacune de nos actions pour chaque fichier contenu dans le dossier URLS
compteur_tableau=1
###########################################################
#pour chaque élément contenu dans le dossier URL ($1) :
for fichier in $(ls $1)
do

#On ouvre le fichier
echo $fichier

#On va créer un compteur pour les lignes de chaque fichier
compteur_url=1

#On crée les colonnes de notre tableau
echo "<table aligne=\"center\" border=\"10px\">
<caption><span style=\"background-color:#FFFF00;\">UTF-8 détecté avec CURL </span>
<span style=\"background-color:#FF00FF;\">Encodage autre détecté avec CURL</span>
<span style=\"background-color:#7fffd4;\">UTF-8 détecté avec FILE -i </span>
<span style=\"background-color:#7FFF00;\">Encodage autre détecté avec FILE -i</span>
</caption>" >>$2/tableau.html

echo "<h2><tr><th colspan=\"11\"> TABLEAU $compteur_tableau $fichier </th></tr></h2>" >>$2/tableau.html
echo "<tr><td>Numero Url</td>
<td>URL</td>
<td>Code HTTP</td>
<td>Encodage</td>
<td>Page Aspirée</td>
<td>Compte motif</td>
<td>Dump Texte</td>
<td>Index</td>
<td>Bigramme</td>
<td>Contexte (texte)</td>
<td>Contexte (html)</td></tr>" >>$2/tableau.html

#Pour chaque ligne de chaque fichier contenu dans URLS :
while read ligne
do
#On cherche à savoir si le code http est 200 (code signifiant que lea page web est valide) tout en aspirant la page web avec la fonction curl
codehttp=$(curl -L -A "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:95.0) Gecko/20100101 Firefox/95.0" -o ./PAGES-ASPIREES/"$compteur_tableau-$compteur_url".html
--compressed $ligne -w %{http_code})

#Si le code est 200, on va pouvoir effectuer les actions suivantes :
if [[ $codehttp == 200 ]]
then
echo "code http = 200"
#On prend l'encodage de l'URL
encodage=$(curl -L -I $ligne | egrep -i "charset" | cut -d"=" -f2 | tr [a-z] [A-Z] | tr -d "\r")
echo $encodage

#Si cet encodage est bien UTF-8 on passe aux étapes suivantes :
if [[ $encodage == "UTF-8" ]]
then
echo "encodage : UTF-8"

#On va dumper l'URL avec la fonction lynx
cat ./PAGES-ASPIREES/"$compteur_tableau-$compteur_url".html | grep -v "charset=" | lynx -dump -stdin -nolist > ./DUMP-TEXT/" $compteur_tableau-$compteur_url".txt

#On créé une version nettoyée du DUMP pour le trameur
cat ./DUMP-TEXT"/$compteur_tableau-$compteur_url".txt | (tr "[A-Z]" "[a-z]" | sed -E "s/^ *//g" | sed -E "s/^(\*|\+|o|https|video|permalink|$button$|$iframe:$) (.*| .*)//g" | sed -E "s/($button$|$iframe:$)//g" | sed -E "s/^# ?.*//g" | sed "s/’/e /g" | tr -d "?!:,;.\_\/\\<>\"\"-@" | sed "s/steuern/steuer/g" | sed "s/steuer/xsteuerx/g" | sed "s/xsteuerx/ steuer /g" | sed -E "s/\b(be|ver|t|lich|ung)\b//g" | sed "s/impôts/impôt/g" | sed -E "s/fisca((les?)|(ux))\b/fiscal/g" | sed -E "s/tax(es)?/taxe/g" | sed -E "s/\bналог(а|у|ом|е|и|ов|ам|ами|ах) ?\b/налог/g" | sed -E "s/\bпадат(ка|ку|кам|ке|к(і|i)|каў|кам|камі|ках)?\b/падатак/g" | cat -s ) > ./DUMP-TEXT/DUMP-NETTOYAGE/"$compteur_tableau-$compteur_url"_nettoyé.txt
if [[ $fichier == "ANGLAIS" ]]
then
sed "s/taxe/tax/g" ./DUMP-TEXT/DUMP-NETTOYAGE/"$compteur_tableau-$compteur_url"_nettoyé.txt > ./DUMP-TEXT/DUMP-NETTOYAGE/"$compteur_tableau-$compteur_url"_nettoyéTAX.txt
rm ./DUMP-TEXT/DUMP-NETTOYAGE/"$compteur_tableau-$compteur_url"_nettoyé.txt
mv ./DUMP-TEXT/DUMP-NETTOYAGE/"$compteur_tableau-$compteur_url"_nettoyéTAX.txt ./DUMP-TEXT/DUMP-NETTOYAGE/"$compteur_tableau-$compteur_url"_nettoyé.txt
fi
#On lance notre fonction qui contient nos différents traitements
traitement_commun

#Si le compteur_motif est à 0, c'est peut-être du à un mauvais dump, donc on essaie autre chose :
if [[ $compteur_motif == 0 ]]
then
cat ./PAGES-ASPIREES/"$compteur_tableau-$compteur_url".html | grep -v "charset=utf-8" | lynx -dump -stdin -nolist > ./DUMP-TEXT/"$compteur_tableau-$compteur_url".txt
traitement_commun
fi
#On renseigne ensuite toutes les informations dans notre tableau
echo "<tr><td>$compteur_url</td>
<td><a href=\"$ligne\">$ligne</a></td>
<td><span style=\"background-color:#40c0ff;\">$codehttp</span></td>
<td><span style=\"background-color:#FFFF00;\">$encodage</span></td>
<td><a href=\" ../PAGES-ASPIREES/$compteur_tableau-$compteur_url.html\">$compteur_tableau-$compteur_url</a></td>
<td>$compteur_motif</td>
<td><a href=\"../DUMP-TEXT/$compteur_tableau-$compteur_url.txt\">$compteur_tableau-$compteur_url</a></td>
<td><a href =\"../DUMP-TEXT/index_$compteur_tableau-$compteur_url.txt\">$compteur_tableau-$compteur_url</a></td>
<td><a href = \"../DUMP-TEXT/bigramme_entier_$compteur_tableau-$compteur_url.txt\">$compteur_tableau-$compteur_url</a></td>
<td><a href = \"../CONTEXTES/$compteur_tableau-$compteur_url.txt\">$compteur_tableau-$compteur_url</a></td>
<td><a href = \"../CONTEXTES/$compteur_tableau-$compteur_url.html\">$compteur_tableau-$compteur_url</a></td></tr>">>$2/tableau.html
#Si l'encodage n'est pas utf-8, on va avoir deux possibiltié : soit c'est un autre encodage, soit l'encodage est vide
else
echo "encodage non utf-8"
#Si l'encodage n'est pas vide (ni utf-8), alors on a un texte encodé dans un autre encodage.
if [[ $encodage != "" ]]
then
echo "encodage non vide"

#On dump notre url avec la fonction lynx pour avoir des fichiers .txt, je les mets dans le fichier DUMP-TEXT
lynx -dump -nolist -display_charset="$encodage" -assume_charset="$encodage" ./PAGES-ASPIREES/"$compteur_tableau-$compteur_url".html > ./DUMP-TEXT"/$compteur_tableau-$compteur_url_autre".txt

#On convertit à partir du fichier .txt en UTF-8
iconv -c -f "$encodage" -t "UTF-8" ./DUMP-TEXT/"$compteur_tableau-$compteur_url_autre".txt > ./DUMP-TEXT/"$compteur_tableau-$compteur_url".txt
#On créé une version nettoyée du dump pour le trameur
cat ./DUMP-TEXT"/$compteur_tableau-$compteur_url".txt | (tr "[A-Z]" "[a-z]" | sed -E "s/^ *//g" | sed -E "s/^(\*|\+|o|https|video|permalink |$button$|$iframe:$)(.*| .*)//g" | sed -E "s/($button$|$iframe:$)//g" | sed -E "s/^# ?.*//g" | sed "s/’/e /g" | tr -d "?!:,;.\_\/\\<>\"\"-@" | sed "s/steuern/steuer/g" | sed "s/steuer/xsteuerx/g" | sed "s/xsteuerx/ steuer /g" | sed -E "s/\b(be|ver|t|lich|ung)\b//g" | sed "s/impôts/impôt/g" | sed -E "s/fisca((les?) |(ux))\b/fiscal/g" | sed -E "s/tax(es)?/taxe/g" | sed -E "s/\bналог(а|у|ом|е|и|ов|ам|ами|ах)?\b/налог/g" | sed -E "s/\bпадат(ка|ку|кам|ке|к(і|i)|каў|кам|камі|ках)?\b/падатак/g" | cat -s ) > ./DUMP-TEXT/DUMP-NETTOYAGE/"$compteur_tableau-$compteur_url"_nettoyé.txt
if [[ $fichier == "ANGLAIS" ]]
then
sed "s/taxe/tax/g" ./DUMP-TEXT/DUMP-NETTOYAGE/"$compteur_tableau-$compteur_url"_nettoyé.txt > ./DUMP-TEXT/DUMP-NETTOYAGE/"$compteur_tableau-$compteur_url"_nettoyéTAX.txt
rm ./DUMP-TEXT/DUMP-NETTOYAGE/"$compteur_tableau-$compteur_url"_nettoyé.txt
mv ./DUMP-TEXT/DUMP-NETTOYAGE/"$compteur_tableau-$compteur_url"_nettoyéTAX.txt ./DUMP-TEXT/DUMP-NETTOYAGE/"$compteur_tableau-$compteur_url"_nettoyé.txt
fi
#On lance notre fonction
traitement_commun

#On affiche nos informations dans notre tableau
echo "<tr><td>$compteur_url</td><td> <br>
<a href=\"$ligne\">$ligne</a></td>
<td><span style=\"background-color:#40c0ff;\">$codehttp</span></td>
<td><span style=\"background-color:#FF00FF;\">$encodage</span></td>
<td><a href=\" ../PAGES-ASPIREES/$compteur_tableau-$compteur_url.html\">$compteur_tableau-$compteur_url</a></td>
<td>$compteur_motif</td>
<td><a href=\"../DUMP-TEXT/$compteur_tableau-$compteur_url.txt\">$compteur_tableau-$compteur_url</a></td>
<td><a href =\"../DUMP-TEXT/index_$compteur_tableau-$compteur_url.txt\">$compteur_tableau-$compteur_url</a></td>
<td><a href = \"../DUMP-TEXT/bigramme_entier_$compteur_tableau-$compteur_url.txt\">$compteur_tableau-$compteur_url</a></td>
<td><a href = \"../CONTEXTES/$compteur_tableau-$compteur_url.txt\">$compteur_tableau-$compteur_url</a></td>
<td><a href = \"../CONTEXTES/$compteur_tableau-$compteur_url.html\">$compteur_tableau-$compteur_url</a></td></tr>" >>$2/tableau.html
#Si on n'a pas d'encodage (encodage est vide avec curl)
else
echo "encodage vide"
#On récupère l'encodage avec la fonction file -i sur le fichier .html
encodage2=$(perl ./PROGRAMMES/detect-encoding.pl ./PAGES-ASPIREES/ "$compteur_tableau-$compteur_url".html )
echo $encodage2

#On va avoir deux nouveaux deux possibiltiés : l'encodage est utf-8 ou non.
#si l'encodage est utf-8 :
if [[ $encodage2 == "UTF-8" ]]
then
echo "encodage 2 utf-8"
echo "NOT UTF-8"
#On dump nos url
lynx -dump -nolist ./PAGES-ASPIREES/"$compteur_tableau-$compteur_url".html > ./DUMP-TEXT"/$compteur_tableau-$compteur_url".txt
# On créé une version propre du dump pour le trameur
cat ./DUMP-TEXT"/$compteur_tableau-$compteur_url".txt | (tr "[A-Z]" "[a-z]" | sed -E "s/^ *//g" | sed -E "s/^(\*|\+|o|https|video|permalink|$button$|$iframe:$) (.*| .*)//g" | sed -E "s/($button$|$iframe:$)//g" | sed -E "s/^# ?.*//g" | sed "s/’/e /g" | tr -d "?!:,;.\_\/\\<>\"\"-@" | sed "s/steuern/steuer/g" | sed "s/steuer/xsteuerx/g" | sed "s/xsteuerx/ steuer /g" | sed -E "s/\b(be|ver|t|lich|ung)\b//g" | sed "s/impôts/impôt/g" | sed -E "s/fisca((les?)|(ux))\b/fiscal/g" | sed -E "s/tax(es)?/taxe/g" | sed -E "s/\bналог(а|у|ом|е|и|ов|ам|ами|ах)?\b/налог/g" | sed -E "s/\bпадат(ка|ку|кам|ке|к(і|i)|каў|кам|камі|ках)?\b/падатак/g" | cat -s ) > ./DUMP-TEXT/DUMP-NETTOYAGE/"$compteur_tableau-$compteur_url"_nettoyé.txt
if [[ $fichier == "ANGLAIS" ]]
then
sed "s/taxe/tax/g" ./DUMP-TEXT/DUMP-NETTOYAGE/"$compteur_tableau-$compteur_url"_nettoyé.txt > ./DUMP-TEXT/DUMP-NETTOYAGE/"$compteur_tableau-$compteur_url"_nettoyéTAX.txt
rm ./DUMP-TEXT/DUMP-NETTOYAGE/"$compteur_tableau-$compteur_url"_nettoyé.txt
mv ./DUMP-TEXT/DUMP-NETTOYAGE/"$compteur_tableau-$compteur_url"_nettoyéTAX.txt ./DUMP-TEXT/DUMP-NETTOYAGE/"$compteur_tableau-$compteur_url"_nettoyé.txt
fi
#On lance notre fonction
traitement_commun

#On ajoute les information dans le tableau
echo "<tr><td>$compteur_url</td>
<td><a href=\"$ligne\">$ligne</a></td>
<td><span style=\"background-color:#40c0ff;\">$codehttp</span></td>
<td><span style=\"background-color:#7fffd4;\">UTF-8</span></td>
<td><a href=\" ../PAGES-ASPIREES/$compteur_tableau-$compteur_url.html\">$compteur_tableau-$compteur_url</a></td>
<td>$compteur_motif</td>
<td><a href=\"../DUMP-TEXT/$compteur_tableau-$compteur_url.txt\">$compteur_tableau-$compteur_url</a></td>
<td><a href =\"../DUMP-TEXT/index_$compteur_tableau-$compteur_url.txt\">$compteur_tableau-$compteur_url</a></td>
<td><a href = \"../DUMP-TEXT/bigramme_entier_$compteur_tableau-$compteur_url.txt\">$compteur_tableau-$compteur_url</a></td>
<td><a href = \"../CONTEXTES/$compteur_tableau-$compteur_url.txt\">$compteur_tableau-$compteur_url</a></td>
<td><a href = \"../CONTEXTES/$compteur_tableau-$compteur_url.html\">$compteur_tableau-$compteur_url</a></td></tr>" >> $2/tableau.html

#Si l'encodage de file-i n'est pas vide, et n'est pas utf-8
else
if [[ $encodage2 != "" ]]
then
echo "ENCODING: YES"
#On dump nos url
lynx -dump -nolist -display_charset="$encodage2" -assume_charset="$encodage2" ./PAGES-ASPIREES/"$compteur_tableau-$compteur_url".html > ./DUMP-TEXT"/$compteur_tableau-$compteur_url_autre".txt
#On convertit notre fichier.txt en utf-8
iconv -c -f "$encodage2" -t "UTF-8" ./DUMP-TEXT/"$compteur_tableau-$compteur_url_autre".txt > ./DUMP-TEXT/"$compteur_tableau-$compteur_url".txt

#On créé une version propre du dump pour le trameur
cat ./DUMP-TEXT"/$compteur_tableau-$compteur_url".txt | (tr "[A-Z]" "[a-z]" | sed -E "s/^ *//g" | sed -E "s/^(\*|\+|o|https|video|permalink|$button$|$iframe:$) (.*| .*)//g" | sed -E "s/($button$|$iframe:$)//g" | sed -E "s/^# ?.*//g" | sed "s/’/e /g" | tr -d "?!:,;.\_\/\\<>\"\"-@" | sed "s/steuern/steuer/g" | sed "s/steuer/xsteuerx/g" | sed "s/xsteuerx/ steuer /g" | sed -E "s/\b(be|ver|t|lich|ung)\b//g" | sed "s/impôts/impôt/g" | sed -E "s/fisca((les?)|(ux))\b/fiscal/g" | sed -E "s/tax(es)?/taxe/g" | sed -E "s/\bналог(а|у|ом|е|и|ов|ам|ами|ах)?\b/налог/g" | sed -E "s/\bпадат(ка|ку|кам|ке|к(і|i)|каў|кам|камі|ках)?\b/падатак/g" | cat -s ) > ./DUMP-TEXT/DUMP-NETTOYAGE/"$compteur_tableau-$compteur_url"_nettoyé.txt

#On lance notre fonction
traitement_commun
#On rentre les informations dans notre tableau
echo "<tr><td>$compteur_url</td><td>
<a href=\"$ligne\">$ligne</a></td>
<td><span style=\"background-color:#40c0ff;\">$codehttp</span></td>
<td><span style=\"background-color:#7FFF00;\">$encodage2</span></td>
<td><a href=\" ../PAGES-ASPIREES/$compteur_tableau-$compteur_url.html\">$compteur_tableau-$compteur_url</a></td>
<td>$compteur_motif</td>
<td><a href=\"../DUMP-TEXT/$compteur_tableau-$compteur_url.txt\">$compteur_tableau-$compteur_url</a></td>
<td><a href =\"../DUMP-TEXT/index_$compteur_tableau-$compteur_url.txt\">$compteur_tableau-$compteur_url</a></td>
<td><a href = \"../DUMP-TEXT/bigramme_entier_$compteur_tableau-$compteur_url.txt\">$compteur_tableau-$compteur_url</a></td>
<td><a href = \"../CONTEXTES/$compteur_tableau-$compteur_url.txt\">$compteur_tableau-$compteur_url</a></td>
<td><a href = \"../CONTEXTES/$compteur_tableau-$compteur_url.html\">$compteur_tableau-$compteur_url</a></td></tr>">>$2/tableau.html
fi
fi
fi
fi
#Si le code http n'est pas 200 on affiche dans le tableau qu'on ne peut pas faire de traitement supplémentaire.
else
echo "<tr><td>$compteur_url</td>
<td><a href=\"$ligne\">$ligne</a></td>
<td><span style=\"background-color:#8B0000;\" >$codehttp</span></td>
<td>??</td>
<td>??</td>
<td>??</td>
<td>??</td>
<td>??</td>
<td>??</td>
<td>??</td>
<td>??</td></tr>" >>$2/tableau.html
fi
#On ajoute +1 au compteur du fichier URL pour passer à la ligne suivante
compteur_url=$(($compteur_url+1))
#Fin lecture du fichier
done < $1/$fichier

#On ferme notre tableau
echo "</table>" >>$2/tableau.html

#On ajoute +1 au compteur du tableau pour passer au fichier suivant du dossier URL
compteur_tableau=$(($compteur_tableau+1))

#Fin de notre boucle
done

#On ferme notre fichier html
echo "</body>/html>" >>$2/tableau.html

TABLEAU 1 ALLEMAND TABLEAU 2 ANGLAIS

TABLEAU 3 BIELORUSSE TABLEAU 4 FRANCAIS TABLEAU 5 RUSSE

Nous avons détaillé les mesures retenues dans notre article de blog. Analysons maintenant les résultats textométriques de nos corpus. Pour rappel, nous nous concentrons sur le nombre d’apparitions des motifs dans le corpus, sur leurs mots cooccurrents et enfin sur leur fréquence d’apparition selon les articles.

ALLEMAND

Nous avons souhaité regarder pour chaque langue la fréquence d’apparition de nos motifs. Etant donné que nous avons chargé comme corpus les concaténations des contextes de nos motifs (deux lignes au-dessus et deux lignes en dessous de chaque occurrence du motif dans l’article) ils devraient être très fréquents voire surreprésentés, d’autant plus que nous avons uniformisé les formes comme nous l’avons expliqué à l’étape précédente. Afin de limiter les formes différentes à observer, nous avons ramené les variantes de nos motifs à leur lemme générique. Observons la fréquence du mot « Steuer », impôt en allemand.

Le mot le plus fréquent de notre corpus est notre mot cible. Il devance même les mots grammaticaux que sont les articles définis « die » et « der ». Pour rappel, cette forme est à la base de tous les noms composés formés sur le mot racine « impôt » en allemand et nous l’avions séparée de façon à avoir des contextes équivalents aux langues n’ayant pas une telle compositionnalité. Grâce à ce processus « steuer » dans « Steuerreform » aura le même contexte « réforme » que « fiscal » dans « réforme fiscale ».

COOCCURRENCES :

Il s’agit de la mesure phare du projet, voyons les mots qui gravitent autour de notre motif allemand : « Steuer ». Nous utilisons l’indice de spécificité de base : IndSP à 5. Nous trouvons des termes pertinents étant donnés nos prétraitements mais également des cooccurrents parasites que nous supprimons (nous ne détaillerons pas les suppressions de mots-outils pour chaque langue, le processus est documenté sur notre blog !).

Le mot de notre projet est intimement lié à la politique fiscale des pays où sont pratiquées les langues que l’on a choisies. On trouve néanmoins des collocations correspondant à des taxes ayant leur équivalent littéral dans les autres cultures comme « Erbschaft » (l’héritage) qui donne « Erbsschaftssteuer » une fois le mot recomposé. Cette taxe est l’équivalente de l’impôt sur la succession français. De même, le Lohnsteuer est l’impôt sur le revenu allemand. On trouve aussi des mots auxquels on s’attendait dans le « champ lexical de la fiscalité » comme l’augmentation « Erhöhung », la déclaration d’impôt « Erklärung» mais aussi la question du devoir « Schuld » signifie littéralement « dette » mais associé à « Steuer », il signifie « l’impôt dû » par le contribuable.

Notre récupération d’urls s’est faite au moment des débats sur l’instauration d’un impôt mondial minimum : on trouve donc « mindest » comme cooccurrent dans le mot « Mindeststeuer » : impôt minimal. Etant donné notre terrain de recherche : les articles de presse, il fallait s’attendre à des résultats sensibles à l’actualité. La présence de l’héritage, du mot « tipps » (astuces), du mot « weniger » (moins) montre que l’impôt dans la presse allemande semble être envisagé d’un point de vue plus individuel que sociétal. Le mot tipps provient probablement d’une des nombreuses pages de presse qui donnent des informations pour optimiser ses impôts. Nous avons rencontré ce type de pages dans les journaux de toutes nos langues.

Nous pouvons également jeter un œil à la fréquence de notre motif dans le corpus grâce à la ventilation. On constate des pics très importants et une fréquence de croisière aux alentours de 10 motifs par article. Cela s’explique par le fait que nous avons fait le choix de prendre aussi bien des articles dont le sujet principal était les impôts que des articles dont ce n’était pas le sujet principal mais qui contenaient des mentions de notre motif. En effet, les articles ne parlant que des impôts sont rares (ou payants car dans les catégories « éco » des journaux, qui attirent généralement un public plus restreint). Notre sélection d’articles date par ailleurs de la campagne présidentielle allemande, à la fin du mandat Merkel. Le sujet des impôts revenait donc souvent le contexte des réformes de l’imposition proposés par les différentes partis. Notre sujet est en effet hautement politique.

ANGLAIS

Notre mot cible en anglais est tout de même moins fréquent que le déterminant the mais il s’agit du premier mot plein de notre corpus avec 644 occurrences.

COOCCURRENCES :

L’indice de spécificité par défaut ne nous donnait pas assez de résultats, nous l’avons donc abaissé à 4 pour en obtenir davantage.

Là encore, on retrouve un terme cooccurrent propre à la culture fiscale du pays : la council tax, l’équivalent britannique des impôts locaux. On retrouve également l’augmentation dans «raising » et « rises », le taux « rate », la question de l’héritage « inheritance ». Mais la question de la réduction des impôts « reduce », de son allègement «relief» ou même de son évitement « avoidance » semble ici plus prégnante.

Nous ne pouvons pas tirer de généralités avec des corpus aussi petits. En cherchant nos urls, nous avons tenté d’être assez équitables quant à l’orientation politique des journaux que nous avons choisis. Malheureusement, pour le cas de l’anglais, les journaux de droite étaient majoritairement payants. Notre corpus britannique est donc assez orienté à gauche, la question de l’évasion fiscale en plein scandale des pandora papers occupait donc l’actualité de la presse de ce bord politique, comme le prouve le concordiancier ci-bas centré sur le mot « avoidance ».

Nous voyons donc qu’un retour aux données est parfait nécessaire. La simple cooccurrence de deux termes ne nous donne pas nécessairement l’opinion du journal.

Le motif semble plus fréquent en anglais. Il semblerait qu’il y ait en effet plus d’articles dans la presse anglaise n’étant centré que sur les impôts (un certain nombre d’entre eux étant cependant des pages de conseils pour en payer moins). On retrouve les pics dus à notre sélection eclectique, comme évoqué supra.

FRANCAIS

Impôt

Le mot « de » est le plus fréquent en français, c’est donc sans surprise qu’il s’agit également du plus représenté dans notre corpus, et ce bien que ce dernier soit restreint aux contextes de nos motifs. Comme nous l’avons dit sur le blog, le français est une langue pénible qui emploie de nombreux synonymes et des radicaux supplétifs tirés du latin pour former ses adjectifs. Nous avons donc trois motifs français pour pouvoir être cohérent avec ce que l’on observait dans les autres langues : impôt/ fiscal et taxe. Regardons d’abord les cooccurrences de « impôt ».

COOCCURRENCES :

On retrouve le sujet d’actualité de la question d’un impôt mondial avec les cooccurrents « mondial » et « minimum ». On retrouve également des noms de taxes propres au pays comme « l’impôt sur les sociétés », « l’impôt sur le revenu », « l’impôt sur la fortune » (qui déchaîne les passions en France, que l’on soit pour sa suppression ou sa réintroduction). La question de sa « réduction » semble définitivement être une question que se posent tous les Etats. Les termes « domicile » et « immobilière »amènent un champ lexical qui était absent des langues précédentes, peut-être est-ce là encore dû à la politique nationale en matière de taxe d’habitation. On retrouve des verbes au passé composé ce qui n’était pas le cas précédemment « soumis » (à l’impôt), « généralisé », « payé », « instantané » (on devine ici la question du prélèvement à la source et donc encore une fois la question de la législation nationale en vigueur).

Le mot « impôt » est réparti de façon assez homogène dans notre corpus français. On notera trois contextes dans lequel il est à 0. Cela s’explique parce que ces contextes contiennent le mot « fiscal » ou « taxe ».

Fiscal

L’adjectif fiscal, formé sur le radical supplétif « fisc », est utilisé pour parler de tout ce qui est relatif aux impôts (n’en déplaise aux apprenants, le français ne peut pas former de mots comme l’impôtréforme ou la réforme imposale). Il se rencontre cependant en quantité moindre dans notre corpus avec 208 occurrences.

Les contextes de « fiscal » semblent beaucoup moins neutres que pour impôt. Ils se scindent en deux catégories : les termes en lien avec l’administration fiscale d’un côté, les termes liés à la fraude fiscale et à sa pénalisation de l’autre. Dans le premier groupe, on trouvera : « numéro/foyer/administration/parents/majeure », dans le second : « contrôles/ éviter/ concurrence/ fraude/ paradis/ niches/ lutter/ contre ». La présence de « débat » et « conclu » est encore une trace des débats sur la fiscalité mondiale.

Le mot fiscal est assez inégalement réparti dans le corpus et fonctionne presque uniquement par pics. Ces pics correspondent la plupart du temps aux articles de presse concernant les paradis fiscaux et l’éclatement récente de l’affaire des pandora papers. Le mot impôt était plus homogène et ses contextes moins restreints. Il semblerait donc qu’impôt soit la forme générique en français et que les supplétifs soient utilisés dans des contextes plus spécialisés (ici la fraude et le contrôle).

Taxe

Dans le dictionnaire, le mot « taxe » est le moins fréquent de nos trois motifs français avec seulement 22 occurrences. Il faut prendre cela en compte dans l’analyse de nos cooccurrents fréquents. Etant donné le peu d’occurrences de ce terme, on ne peut pas tirer de généralités quant aux attractions lexicales qui se font autour de lui.

COOCCURRENCES :

Le résultat est assez peu éloquent concernant ce mot. Si l’on devine le champ lexical des impôts derrière le terme « prélèvements », on peine à trouver le lien logique qui lie les autres mots à « taxe » (« petites »/ « comprennent »). Ces cooccurrents n’apparaissent en effet que deux à trois fois. Etant donné le peu d’occurrences du motif fiscal, la mesure des cooccurrents est sensible aux cas spécifiques. Il aurait peut-être fallu scinder notre compteur de motif en trois pour le français pour s’en rendre compte plus tôt et éviter d’avoir à faire des mesures sur cette forme, vraisemblablement minoritaire. Nous avons tout de même tenté de baisser l’indice de spécificité mais cela n’a pas été davantage probant puisque l’on retrouve des mots grammaticaux dénués de sens par définition. Le mot suppression fait toutefois exception mais deux occurrences ne suffisent pas à tirer de conclusion quant à l’attraction lexicale de ce mot.

Des trois mots sémantiquement liés à la fiscalité que nous avons relevés en français, taxe est le moins fréquent de notre corpus et est la plupart du temps absent des contextes.

BÉLARUSSE

Dans la version biélorusse, le mot « impôt » (en biélorusse « падатак » qui se prononce « padatak ») est le plus fréquent (555 occurrences) ce qui témoigne des contextes du motif bien sélectionnés. Juste après le motif sur la deuxième ligne, nous avons le mot « на » (qui se traduit « sur ») dont la fréquence est assez proche de celle du motif (346 occurrences). L’explication de sa « popularité » est simple : dans de nombreuses phrases, cette préposition suit notre motif pour spécifier un type d’impôt (p.ex. une taxe d’habitation correspond en biélorusse à l’impôt sur logement (падатак на жыллё). La troisième ligne est occupée par le mot « dans » (en biélorusse « ў ») (195 occurrences). Même si ce nombre est important, l’écart avec son précédent est assez considérable. Le nombre d’occurrences du quatrième mot du dictionnaire, qui est la conjonction « et » (en biélorusse « i »), est 188 ce qui s’explique par son rôle grammatical.

COOCCURRENCES :

Dans le graphique des cooccurrents, nous voyons que les « satellites » de notre motif les plus fréquents (nous ne prenons pas en considération la préposition « sur » (« на ») dont la fréquence est expliquée ci-dessus) sont le verbe « payer » qui est utilisé 79 fois avec le motif, les substantifs « patrimoine » (38 occurrences), « carburant » (18 occurrences), « paiement » (21 occurrences). C’est un résultat attendu vu la spécificité de notre corpus.

La répartition du motif est assez homogène dans le corpus en biélorusse, uniquement le seul article correspondant à l’url 8 qui affiche un nombre important d’occurrences du motif (83). C’est dû premièrement à la taille de l’article qui est beaucoup plus long qu’un article de presse moyen. Deuxièmement, il porte sur les types d’impôts dans tous les pays européens.

RUSSE

Le résultat de traitement textométrique du corpus en russe est assez satisfaisant : notre motif (en russe, « налог » (se prononce « nalog »)) a le plus grand nombre d’occurrences, il y est employé 1198 fois. En revanche, nous sommes étonnés que la deuxième ligne dans le dictionnaire est occupée par la préposition « dans » (707 occurrences), alors que la préposition « sur » (troisième dans le tableau avec 602 occurrences) aurait dû être en cette position (nous attendions un résultat semblable aux résultats obtenus dans la version biélorusse car les langues russe et biélorusse sont très similaires grammaticalement et syntaxiquement). Le quatrième mot le plus fréquent (499 occurrences) est identique au résultat du corpus en biélorusse.

Dans la liste des cooccurrents, les plus fréquents sont les substantifs « paiement » (46 occurrences) et « bien » (35 occurrences), ainsi que l’adjectif dérivé du substantif « transport » sous deux déclinaisons (au nominatif singulier – 83 (dont l’indice de spécificité est 43 !) et au génitif singulier – 64 occurrences). L’apparition de de ce dernier parmi les cooccurrents les plus fréquents nous surprend puisque les sources des pages web sélectionnées sont très variées et l’impôt sur transport privé (type d’impôt en Russie) n’y figure pas en tant que thème prépondérant. Sans analyse détaillée du contenu de nos pages web en russe nous ne sommes en mesure de fournir une explication logique à tel résultat. D’autres cooccurrents fréquents sont très prévisibles : « exempter », « somme », « revenu », « augmentation », « foncier », « unique » (« impôt unique » est un type d’impôt payé en Russie par des auto-entrepreneurs), « caché », « Russes », « viande » (moins prévisible que les autres mais par surprise ayant presque la même fréquence comme le cooccurrent « sur revenu » : 15 et 16 respectivement).

D’après le graphique de ventilation nous pouvons voir que certaines pages contiennent un nombre considérable d’occurrence du motif. En fait, c’est le cas des articles de sites se spécialisant en questions d’imposition.

Pour les nuages de mots, nous avons utilisé le site Word-art. Celui ci nous a permis de choisir nos images pour les nuages. Nous y avons chargé notre corpus et enlevé manuellement les mots-outils (comme pour le trameur). Le nuage de mots a quelques similitudes avec les résultats du trameur.

Allemand

Les mots ressortant le plus diffèrent des résultats du trameur. En effet, "Euro", 'Geld" (argent), "Einkommen" (le revenu),"Mehr" et "Prozent" (pourcent) ne sont pas des coocurrents du mot "Steuer". NéaNmoins, les cooccurrents de notre mot sont lisibles dans ce nuage, en deuxième et troisième plan. On retrouve "Erklärung", "Erbschaft" (patrimoine), "Lohn" (salaire), "Tipp" (conseil), 'Finanzen" (finances) et "Zahler" (Steuerzahler: le contribuable, littéralement le payeur d'impôt). On peut facilement faire un lien entre les mots les plus évidents de notre nuage et le thème des articles de journaux récoltés : les impôts et les pourcentages, la politique fiscale, et plus généralement l'argent.

Anglais

On y retrouve "rate" (le taux) , "rise" et "raise" (idée d'augmentation), haven (paradis). L'idée d'héritage "inheritance" ou de différences ("difference" et "gap") n'est pas perceptible dans notre nuage de mot alors que ce sont des cooccurents de "taxe". Dans un second plan, on peut trouver "income", qui est un des cooccurrents de notre mot. Ce nuage de mot met en évidence une particularité des articles britanniques : les questions fiscales sont très liés aux personnalités politiques : on retrouve les noms de "Boris" "Johnsons" et de "Sunak" dans le nuage. On ne retrouve pas cette particularité en français et en allemand. Enfin, les mots "care" , "pay", "up", "avoid" présents dans ce nuage ne le sont pas dans les résultats trameur.

Bélarusse

Sur le nuage de mots biélorusses, notre motif "падатак" (marqué en jaune) est le plus grand par conséquent le plus fréquent. De taille légèrement plus petite, surviennent les occurrents "плацiць" (payer), "трэба" (il faut), "Iп" (Autoentrepreneur en abrégé), "Беларусi" (Bélarus), "год" (année).

Français

Notre nuage de mot du français fait ressortir certains cooccurrents des mots "impôts" et "fiscal" : "foyer", "revenu", "payer", "réduction" et "crédit". On a du mal à retrouver l'idée de fraude, de niche ou de paradis fiscal dans notre nuage alors que ces trois mots sont présents en cooccurrent de "fiscal". On ne retrouve pas les cooccurrents du motif "taxe" du français. Au vu du faible nombre de cooccurrents dans le trameur, cela n'est pas surprenant.

Russe

En russe, le nuage de mots fait ressortir notre motif "налог" (en couleur mauve) en la plus grande taille puisque dans nos résultats c'est le mot le plus fréquent. D'autres mots un peu plus petits sont "год" (année), "налоги" (impôts), "можно" (on peut), "РФ" (Fédération de Russie en abrégé), "платить" (payer), "России" (Russie).

On peut donc conclure qu’il est difficile d’extraire l’opinion des pays où sont pratiquées nos langues d’étude sur le mot « impôt » avec les seuls cooccurrents comme outil de comparaison.

En effet, les mots gravitant autour du mot impôt sont de façon générale assez similaires dans nos langues et il faut s’aventurer dans les concordanciers pour savoir ce qui en est réellement dit. Ainsi, la « réduction » d’un impôt peut être envisagée comme positive ou négative selon le journal et le pays qui la mentionne. Nous avons vu avec le cas de l’anglais que se concentrer sur les cooccurrents seuls pouvait nous induire en erreur. La forte présence du mot « avoidance » aurait pu nous faire croire que les anglais cherchent à payer le moins d’impôts possible alors que les articles ayant fait revenir ce cooccurrent un grand nombre de fois évoquaient justement l’injustice de l’évasion fiscale des plus riches en plein scandale des pandora papers. Si le processus mis en place est assez éloquent et permet de se concentrer sur les attractions lexicales qui se font autour de notre mot-cible, notre sujet est suffisamment politique pour que les cooccurrents soient finalement d’une polarité assez neutre. Un retour aux données est donc parfois nécessaire pour avoir une vision plus fine de ce qui se joue dans les sociétés étudiées.

Également, nous avons constaté que notre sujet était intimement lié aux politiques fiscales en vigueur dans les pays étudiés. On retrouve des similitudes mais également des cas isolés. L’impôt sur l’immobilier semble par exemple être une passion française que ne partagent pas les autres langues qui ont en revanche l’intérêt pour la préservation de l’héritage comme point commun.

Toujours est-il que l’on distingue deux façons d’évoquer l’impôt dans la presse, tantôt il s’agit d’un enjeu individuel qui impacte le porte-monnaie de tout un chacun (il sera alors question de son allègement, de sa réduction ou de son augmentation, de conseils, de calculs), tantôt il sera un enjeu de société et de justice sociale avec notamment la question de la fraude. A ce dernier égard, le français est une langue qui tire son épingle du jeu. Nous évoquions dans notre blog la pénibilité de traitement du champ lexical français de la fiscalité et de ses trois mots impôt, fiscal et taxe mais nous avons constaté que ces mots attiraient des cooccurrents différents et sémantiquement motivés. Le premier mot est générique quand le second est davantage évoqué d’un point de vue punitif ou administrativo-judiciaire. Les autres langues utilisent généralement un mot unique comme racine mais en restreignent de fait moins les emplois.

Merci de nous avoir lu et à très vite pour notre nouveau projet au second semestre.