Nos scripts !

Pour voir le script qui nous a permis de créer le tableau cliquez ici :
- le script du tableau

La version plus sympathique à voir du script se trouve ici.
Pour télécharger le script, cliquez ici.


Pour voir les motifs qui ont été utilisé dans notre script cliquez ici :
- le motif pour le français
- le motif pour l'anglais et plus spécifiquement le mot "sisterhood"
- le motif pour l'anglais et plus spécifiquement le mot "sorority"
- le motif pour le russe

Pour télécharger les motifs cliquez ici.


Pour voir le script qui nous a permis de créer les fichiers concaténés des dumps et des contextes des trois langues (créés afin de pouvoir les analyser avec l'application itrameur et les nuages de mots) cliquez ici :
- le script de la concaténation version Mac
- le script de la concaténation version Windows

L'explication du programme de concaténation est à lire ici.

La version plus sympathique à voir du script Mac se trouve ici et celle de Windows ici.
Pour télécharger le script Mac, cliquez ici et pour la version Windows ici.


			
#!usr/bin/bash
#pour lancer le script : 
#bash ./PROGRAMMES/script.sh ./URLS ./TABLEAUX

dossier_url=$1
dossier_tableau=$2

echo $dossier_url
echo $dossier_tableau

html_entete(){
	echo "<html><head><meta charset=\"utf-8\"/><style>
	body {
		font-family:monospace:
	}
	table {
		border:3px solid;
		margin:30px;
		width: 800px;
		word-break:break-all
	}
	tr:hover {
		background-color: #3CB371;
	}
	td{
		text-align:center;
	}
	</style><head><body>" > $dossier_tableau/tableau.html; 
}

traitement_url_utf8(){

	if [[ $fichier == "url_en.txt" ]]
	then 
	
		txt=$(lynx -dump -nolist -assume_charset="UTF-8" -display_charset="UTF-8" ./PAGES-ASPIREES/en1/"$compteurTableau-$compteur".html)
		
		encodage="UTF-8"
												
		echo "$txt" > ./DUMP-TEXT/dump_en1/dump_en1"$compteurTableau-$compteur".txt
																								
		cat ./DUMP-TEXT/dump_en1/dump_en1"$compteurTableau-$compteur".txt | egrep -io "\w+'?" |sort| uniq -c |sort -rn > ./DUMP-TEXT/idx_en1/idx_en1-"$compteurTableau-$compteur".txt
						
		python3 ./PROGRAMMES/bigramme/main.py ./DUMP-TEXT/dump_en1/dump_en1"$compteurTableau-$compteur".txt > ./DUMP-TEXT/bigrammes_en1/bgm_"$compteurTableau-$compteur".txt
						
		cat ./DUMP-TEXT/bigrammes_en1/bgm_"$compteurTableau-$compteur".txt | egrep -io "\['\w+', '\w+'\]"|sort| uniq -c |sort -rn > ./DUMP-TEXT/bigrammes_en1/bigramme_en1-"$compteurTableau-$compteur".txt
						
		rm ./DUMP-TEXT/bigrammes_en1/bgm_"$compteurTableau-$compteur".txt
						
		cat ./DUMP-TEXT/dump_en1/dump_en1"$compteurTableau-$compteur".txt | egrep -io "(\w+('s |:|,|\s|\n|.|\"|\t)+){0,5}((s|S)isterhood)(('s |:|,|\s|\n|.|\"|\t|\.)+\w+('s |:|,|\s|\n|.|\"|\t|\.)){0,5}" > ./CONTEXTES/contexte_en1/contxt_en1-"$compteurTableau-$compteur".txt
						
		perl ./PROGRAMMES/minigrepmultilingue-v2/minigrepmultilingue-u8.pl "UTF-8" ./DUMP-TEXT/dump_en1/dump_en1"$compteurTableau-$compteur".txt ./PROGRAMMES/motif_en1.txt ./CONTEXTES/contexte_en1/contxt_en1-"$compteurTableau-$compteur"-html.html
						
		nb_motif=$(egrep -coi "\b((S|s)isterhoods?)" ./CONTEXTES/contexte_en1/contxt_en1-"$compteurTableau-$compteur".txt)
		
		echo "
				<tr>
				<td align=\"center\">$compteur</td>
				<td align=\"center\">$encodage</td>
				<td align=\"center\">$codeHTTP</td>
				<td align=\"center\"><a href=\"$line\" target="_blank">$line</a></td>
				<td align=\"center\"><a href=\"../PAGES-ASPIREES/en1/$compteurTableau-$compteur.html\" target="_blank">$compteurTableau-$compteur</a></td>
				<td align=\"center\"><a href=\"../DUMP-TEXT/dump_en1/dump_en1$compteurTableau-$compteur.txt\" target="_blank">$compteurTableau-$compteur</a></td>
				<td align=\"center\"><a href=\"../DUMP-TEXT/idx_en1/idx_en1-$compteurTableau-$compteur.txt\" target="_blank">idx_en1-$compteurTableau-$compteur</a></td>
				<td align=\"center\"><a href=\"../DUMP-TEXT/bigrammes_en1/bigramme_en1-$compteurTableau-$compteur.txt\" target="_blank">bigramme_en1-$compteurTableau-$compteur</a></td>
				<td align=\"center\"><a href=\"../CONTEXTES/contexte_en1/contxt_en1-$compteurTableau-$compteur.txt\" target="_blank">contxt_en1-$compteurTableau-$compteur</a></td>
				<td align=\"center\"><a href=\"../CONTEXTES/contexte_en1/contxt_en1-$compteurTableau-$compteur-html.html\" target="_blank">contxt_en1-$compteurTableau-$compteur-html</a></td>
				<td align=\"center\">$nb_motif</td>
				</tr>" >> $dossier_tableau/tableau.html


	elif [[ $fichier == "url_en2.txt" ]]
	then 
				
		txt=$(lynx -dump -nolist -assume_charset="UTF-8" -display_charset="UTF-8" ./PAGES-ASPIREES/en2/"$compteurTableau-$compteur".html)
		
		encodage="UTF-8"
																		
		echo "$txt" > ./DUMP-TEXT/dump_en2/dump_en2"$compteurTableau-$compteur".txt
																								
		cat ./DUMP-TEXT/dump_en2/dump_en2"$compteurTableau-$compteur".txt | egrep -io "\w+'?" |sort| uniq -c |sort -rn > ./DUMP-TEXT/idx_en2/idx_en2-"$compteurTableau-$compteur".txt
						
		python3 ./PROGRAMMES/bigramme/main.py ./DUMP-TEXT/dump_en2/dump_en2"$compteurTableau-$compteur".txt > ./DUMP-TEXT/bigrammes_en2/bgm_"$compteurTableau-$compteur".txt
						
		cat ./DUMP-TEXT/bigrammes_en2/bgm_"$compteurTableau-$compteur".txt | egrep -io "\['\w+', '\w+'\]"|sort| uniq -c |sort -rn > ./DUMP-TEXT/bigrammes_en2/bigramme_en2-"$compteurTableau-$compteur".txt
						
		rm ./DUMP-TEXT/bigrammes_en2/bgm_"$compteurTableau-$compteur".txt
						
		cat ./DUMP-TEXT/dump_en2/dump_en2"$compteurTableau-$compteur".txt | egrep -io "(\w+('s |:|,|\s|\n|.|\"|\t)+){0,5}((s|S)ororit(y|ies))(('s |:|,|\s|\n|.|\"|\t|\.)+\w+('s |:|,|\s|\n|.|\"|\t|\.)){0,5}" > ./CONTEXTES/contexte_en2/contxt_en2-"$compteurTableau-$compteur".txt
						
		perl ./PROGRAMMES/minigrepmultilingue-v2/minigrepmultilingue-u8.pl "UTF-8" ./DUMP-TEXT/dump_en2/dump_en2"$compteurTableau-$compteur".txt ./PROGRAMMES/motif_en2.txt ./CONTEXTES/contexte_en2/contxt_en2-"$compteurTableau-$compteur"-html.html
						
		nb_motif=$(egrep -coi "((S|s)ororit(y|ies))" ./CONTEXTES/contexte_en2/contxt_en2-"$compteurTableau-$compteur".txt)
		
		echo "
				<tr>
				<td align=\"center\">$compteur</td>
				<td align=\"center\">$encodage</td>
				<td align=\"center\">$codeHTTP</td>
				<td align=\"center\"><a href=\"$line\" target="_blank">$line</a></td>
				<td align=\"center\"><a href=\"../PAGES-ASPIREES/en2/$compteurTableau-$compteur.html\" target="_blank">$compteurTableau-$compteur</a></td>
				<td align=\"center\"><a href=\"../DUMP-TEXT/dump_en2/dump_en2$compteurTableau-$compteur.txt\" target="_blank">$compteurTableau-$compteur</a></td>
				<td align=\"center\"><a href=\"../DUMP-TEXT/idx_en2/idx_en2-$compteurTableau-$compteur.txt\" target="_blank">idx_en2-$compteurTableau-$compteur</a></td>
				<td align=\"center\"><a href=\"../DUMP-TEXT/bigrammes_en2/bigramme_en2-$compteurTableau-$compteur.txt\" target="_blank">bigramme_en2-$compteurTableau-$compteur</a></td>
				<td align=\"center\"><a href=\"../CONTEXTES/contexte_en2/contxt_en2-$compteurTableau-$compteur.txt\" target="_blank">contxt_en2-$compteurTableau-$compteur</a></td>
				<td align=\"center\"><a href=\"../CONTEXTES/contexte_en2/contxt_en2-$compteurTableau-$compteur-html.html\" target="_blank">contxt_en2-$compteurTableau-$compteur-html</a></td>
				<td align=\"center\">$nb_motif</td>
				</tr>" >> $dossier_tableau/tableau.html
				
	elif [[ $fichier == "url_french.txt" ]]
	then 
		
		txt=$(lynx -dump -nolist -assume_charset="UTF-8" -display_charset="UTF-8" ./PAGES-ASPIREES/french/"$compteurTableau-$compteur".html)
		
		encodage="UTF-8"
																		
		echo "$txt" > ./DUMP-TEXT/dump_fr/dump_fr"$compteurTableau-$compteur".txt
																								
		cat ./DUMP-TEXT/dump_fr/dump_fr"$compteurTableau-$compteur".txt | egrep -io "\w+" |sort| uniq -c |sort -rn > ./DUMP-TEXT/idx_fr/idx_fr-"$compteurTableau-$compteur".txt
						
		python3 ./PROGRAMMES/bigramme/main.py ./DUMP-TEXT/dump_fr/dump_fr"$compteurTableau-$compteur".txt > ./DUMP-TEXT/bigrammes_fr/bgm_fr"$compteurTableau-$compteur".txt
						
		cat ./DUMP-TEXT/bigrammes_fr/bgm_fr"$compteurTableau-$compteur".txt | egrep -io "\['\w+', '\w+'\]"|sort| uniq -c |sort -rn > ./DUMP-TEXT/bigrammes_fr/bigramme_fr"$compteurTableau-$compteur".txt
						
		rm ./DUMP-TEXT/bigrammes_fr/bgm_fr"$compteurTableau-$compteur".txt
						
		cat ./DUMP-TEXT/dump_fr/dump_fr"$compteurTableau-$compteur".txt | egrep -io  "(\w+('s |:|,|\s|\n|.|\"|\t)+){0,5}((s|S)ororités?)(('s |:|,|\s|\n|.|\"|\t|\.)+\w+('s |:|,|\s|\n|.|\"|\t|\.)){0,5}" > ./CONTEXTES/contexte_fr/contxt_fr-"$compteurTableau-$compteur".txt
						
		perl ./PROGRAMMES/minigrepmultilingue-v2/minigrepmultilingue-u8.pl "UTF-8" ./DUMP-TEXT/dump_fr/dump_fr"$compteurTableau-$compteur".txt ./PROGRAMMES/motif_fr.txt ./CONTEXTES/contexte_fr/contxt_fr-"$compteurTableau-$compteur"-html.html
						
		nb_motif=$(egrep -coi "(sororité(s?))" ./CONTEXTES/contexte_fr/contxt_fr-"$compteurTableau-$compteur".txt)
		
		echo "
				<tr>
				<td align=\"center\">$compteur</td>
				<td align=\"center\">$encodage</td>
				<td align=\"center\">$codeHTTP</td>
				<td align=\"center\"><a href=\"$line\" target="_blank">$line</a></td>
				<td align=\"center\"><a href=\"../PAGES-ASPIREES/french/$compteurTableau-$compteur.html\" target="_blank">$compteurTableau-$compteur</a></td>
				<td align=\"center\"><a href=\"../DUMP-TEXT/dump_fr/dump_fr$compteurTableau-$compteur.txt\" target="_blank">$compteurTableau-$compteur</a></td>
				<td align=\"center\"><a href=\"../DUMP-TEXT/idx_fr/idx_fr-$compteurTableau-$compteur.txt\" target="_blank">idx_fr-$compteurTableau-$compteur</a></td>
				<td align=\"center\"><a href=\"../DUMP-TEXT/bigrammes_fr/bigramme_fr$compteurTableau-$compteur.txt\" target="_blank">bigramme_fr-$compteurTableau-$compteur</a></td>
				<td align=\"center\"><a href=\"../CONTEXTES/contexte_fr/contxt_fr-$compteurTableau-$compteur.txt\" target="_blank">contxt_fr-$compteurTableau-$compteur</a></td>
				<td align=\"center\"><a href=\"../CONTEXTES/contexte_fr/contxt_fr-$compteurTableau-$compteur-html.html\" target="_blank">contxt_fr-$compteurTableau-$compteur-html</a></td>
				<td align=\"center\">$nb_motif</td>
				</tr>" >> $dossier_tableau/tableau.html
				
	elif [[ $fichier == "url_ru.txt" ]]
	then 

		txt=$(lynx -dump -nolist -assume_charset="UTF-8" -display_charset="UTF-8" ./PAGES-ASPIREES/ru/"$compteurTableau-$compteur".html)
		
		encodage="UTF-8"
																		
		echo "$txt" > ./DUMP-TEXT/dump_ru/dump_ru"$compteurTableau-$compteur".txt
																								
		cat ./DUMP-TEXT/dump_ru/dump_ru"$compteurTableau-$compteur".txt | egrep -io "\w+" |sort| uniq -c |sort -rn > ./DUMP-TEXT/idx_ru/idx_ru-"$compteurTableau-$compteur".txt
						
		python3 ./PROGRAMMES/bigramme/main.py ./DUMP-TEXT/dump_ru/dump_ru"$compteurTableau-$compteur".txt > ./DUMP-TEXT/bigrammes_ru/bgm_ru"$compteurTableau-$compteur".txt
						
		cat ./DUMP-TEXT/bigrammes_ru/bgm_ru"$compteurTableau-$compteur".txt | egrep -io "\['\w+', '\w+'\]"|sort| uniq -c |sort -rn > ./DUMP-TEXT/bigrammes_ru/bigramme_ru-"$compteurTableau-$compteur".txt
						
		rm ./DUMP-TEXT/bigrammes_ru/bgm_ru"$compteurTableau-$compteur".txt
						
		cat ./DUMP-TEXT/dump_ru/dump_ru"$compteurTableau-$compteur".txt | egrep -io  "(\w+[' \",\#]+){0,5}(сестринств(о|а|у|е|ом|ам|ами|ах)?)([' \",#]+\w+){0,5}" > ./CONTEXTES/contexte_ru/contxt_ru-"$compteurTableau-$compteur".txt
						
		perl ./PROGRAMMES/minigrepmultilingue-v2/minigrepmultilingue-u8.pl "UTF-8" ./DUMP-TEXT/dump_ru/dump_ru"$compteurTableau-$compteur".txt ./PROGRAMMES/motif_ru.txt ./CONTEXTES/contexte_ru/contxt_ru-"$compteurTableau-$compteur"-html.html
						
		nb_motif=$(egrep -coi "(сестринств(о|а|у|е|ом|ам|ами|ах)?)" ./CONTEXTES/contexte_ru/contxt_ru-"$compteurTableau-$compteur".txt)
		
		echo "
				<tr>
				<td align=\"center\">$compteur</td>
				<td align=\"center\">$encodage</td>
				<td align=\"center\">$codeHTTP</td>
				<td align=\"center\"><a href=\"$line\" target="_blank">$line</a></td>
				<td align=\"center\"><a href=\"../PAGES-ASPIREES/ru/$compteurTableau-$compteur.html\" target="_blank">$compteurTableau-$compteur</a></td>
				<td align=\"center\"><a href=\"../DUMP-TEXT/dump_ru/dump_ru$compteurTableau-$compteur.txt\" target="_blank">dump_ru$compteurTableau-$compteur</a></td>
				<td align=\"center\"><a href=\"../DUMP-TEXT/idx_ru/idx_ru-$compteurTableau-$compteur.txt\" target="_blank">idx_ru-$compteurTableau-$compteur</a></td>
				<td align=\"center\"><a href=\"../DUMP-TEXT/bigrammes_ru/bigramme_ru-$compteurTableau-$compteur.txt\" target="_blank">bigramme_ru-$compteurTableau-$compteur</a></td>
				<td align=\"center\"><a href=\"../CONTEXTES/contexte_ru/contxt_ru-$compteurTableau-$compteur.txt\" target="_blank">contxt_ru-$compteurTableau-$compteur</a></td>
				<td align=\"center\"><a href=\"../CONTEXTES/contexte_ru/contxt_ru-$compteurTableau-$compteur-html.html\" target="_blank">contxt_ru-$compteurTableau-$compteur-html</a></td>
				<td align=\"center\">$nb_motif</td>
				</tr>" >> $dossier_tableau/tableau.html		

	fi
	
}

traitement_not_utf8(){
	
	if [[ $fichier == "url_en.txt" ]]
	then 
		
		txt=$(lynx -dump -nolist -assume_charset=$encodage ./PAGES-ASPIREES/en1/"$compteurTableau-$compteur".html)
		
		reponse=$(iconv -l | egrep -i -o $encodage)
		iconv -f $reponse -t "UTF-8"
								
		encodage="UTF-8 converted"

		echo "$txt" > ./DUMP-TEXT/dump_en1/dump_en1"$compteurTableau-$compteur".txt
																								
		cat ./DUMP-TEXT/dump_en1/dump_en1"$compteurTableau-$compteur".txt | egrep -io "\w+'?" |sort| uniq -c |sort -rn > ./DUMP-TEXT/idx_en1/idx_en1-"$compteurTableau-$compteur".txt
						
		python3 ./PROGRAMMES/bigramme/main.py ./DUMP-TEXT/dump_en1/dump_en1"$compteurTableau-$compteur".txt > ./DUMP-TEXT/bigrammes_en1/bgm_"$compteurTableau-$compteur".txt
						
		cat ./DUMP-TEXT/bigrammes_en1/bgm_"$compteurTableau-$compteur".txt | egrep -io "\['\w+', '\w+'\]"|sort| uniq -c |sort -rn > ./DUMP-TEXT/bigrammes_en1/bigramme_en1-"$compteurTableau-$compteur".txt
						
		rm ./DUMP-TEXT/bigrammes_en1/bgm_"$compteurTableau-$compteur".txt
						
		cat ./DUMP-TEXT/dump_en1/dump_en1"$compteurTableau-$compteur".txt | egrep -io "(\w+('s |:|,|\s|\n|.|\"|\t)+){0,5}((s|S)isterhood)(('s |:|,|\s|\n|.|\"|\t|\.)+\w+('s |:|,|\s|\n|.|\"|\t|\.)){0,5}" > ./CONTEXTES/contexte_en1/contxt_en1-"$compteurTableau-$compteur".txt
						
		perl ./PROGRAMMES/minigrepmultilingue-v2/minigrepmultilingue-u8.pl "UTF-8" ./DUMP-TEXT/dump_en1/dump_en1"$compteurTableau-$compteur".txt ./PROGRAMMES/motif_en1.txt ./CONTEXTES/contexte_en1/contxt_en1-"$compteurTableau-$compteur"-html.html
						
		nb_motif=$(egrep -coi "\b((S|s)isterhoods?)" ./CONTEXTES/contexte_en1/contxt_en1-"$compteurTableau-$compteur".txt)
		
		echo "
				<tr>
				<td align=\"center\">$compteur</td>
				<td align=\"center\">$encodage</td>
				<td align=\"center\">$codeHTTP</td>
				<td align=\"center\"><a href=\"$line\" target="_blank">$line</a></td>
				<td align=\"center\"><a href=\"../PAGES-ASPIREES/en1/$compteurTableau-$compteur.html\" target="_blank">$compteurTableau-$compteur</a></td>
				<td align=\"center\"><a href=\"../DUMP-TEXT/dump_en1/dump_en1$compteurTableau-$compteur.txt\" target="_blank">$compteurTableau-$compteur</a></td>
				<td align=\"center\"><a href=\"../DUMP-TEXT/idx_en1/idx_en1-$compteurTableau-$compteur.txt\" target="_blank">idx_en1-$compteurTableau-$compteur</a></td>
				<td align=\"center\"><a href=\"../DUMP-TEXT/bigrammes_en1/bigramme_en1-$compteurTableau-$compteur.txt\" target="_blank">bigramme_en1-$compteurTableau-$compteur</a></td>
				<td align=\"center\"><a href=\"../CONTEXTES/contexte_en1/contxt_en1-$compteurTableau-$compteur.txt\" target="_blank">contxt_en1-$compteurTableau-$compteur</a></td>
				<td align=\"center\"><a href=\"../CONTEXTES/contexte_en1/contxt_en1-$compteurTableau-$compteur-html.html\" target="_blank">contxt_en1-$compteurTableau-$compteur-html</a></td>
				<td align=\"center\">$nb_motif</td>
				</tr>" >> $dossier_tableau/tableau.html
		
	elif [[ $fichier == "url_en2.txt" ]]
	then 
	
		txt=$(lynx -dump -nolist -assume_charset=$encodage ./PAGES-ASPIREES/en2/"$compteurTableau-$compteur".html)
			
		reponse=$(iconv -l | egrep -io $encodage)
		iconv -f $reponse -t "UTF-8"
								
		encodage="UTF-8 converted"
								
		echo "$txt" > ./DUMP-TEXT/dump_en2/dump_en2"$compteurTableau-$compteur".txt
																								
		cat ./DUMP-TEXT/dump_en2/dump_en2"$compteurTableau-$compteur".txt | egrep -io "\w+'?" |sort| uniq -c |sort -rn > ./DUMP-TEXT/idx_en2/idx_en2-"$compteurTableau-$compteur".txt
						
		python3 ./PROGRAMMES/bigramme/main.py ./DUMP-TEXT/dump_en2/dump_en2"$compteurTableau-$compteur".txt > ./DUMP-TEXT/bigrammes_en2/bgm_"$compteurTableau-$compteur".txt
						
		cat ./DUMP-TEXT/bigrammes_en2/bgm_"$compteurTableau-$compteur".txt | egrep -io "\['\w+', '\w+'\]"|sort| uniq -c |sort -rn > ./DUMP-TEXT/bigrammes_en2/bigramme_en2-"$compteurTableau-$compteur".txt
						
		rm ./DUMP-TEXT/bigrammes_en2/bgm_"$compteurTableau-$compteur".txt
						
		cat ./DUMP-TEXT/dump_en2/dump_en2"$compteurTableau-$compteur".txt | egrep -io "(\w+('s |:|,|\s|\n|.|\"|\t)+){0,5}((s|S)ororit(y|ies))(('s |:|,|\s|\n|.|\"|\t|\.)+\w+('s |:|,|\s|\n|.|\"|\t|\.)){0,5}" > ./CONTEXTES/contexte_en2/contxt_en2-"$compteurTableau-$compteur".txt
						
		perl ./PROGRAMMES/minigrepmultilingue-v2/minigrepmultilingue-u8.pl "UTF-8" ./DUMP-TEXT/dump_en2/dump_en2"$compteurTableau-$compteur".txt ./PROGRAMMES/motif_en2.txt ./CONTEXTES/contexte_en2/contxt_en2-"$compteurTableau-$compteur"-html.html
						
		nb_motif=$(egrep -coi "((S|s)ororit(y|ies))" ./CONTEXTES/contexte_en2/contxt_en2-"$compteurTableau-$compteur".txt)
		
		echo "
				<tr>
				<td align=\"center\">$compteur</td>
				<td align=\"center\">$encodage</td>
				<td align=\"center\">$codeHTTP</td>
				<td align=\"center\"><a href=\"$line\" target="_blank">$line</a></td>
				<td align=\"center\"><a href=\"../PAGES-ASPIREES/en2/$compteurTableau-$compteur.html\" target="_blank">$compteurTableau-$compteur</a></td>
				<td align=\"center\"><a href=\"../DUMP-TEXT/dump_en2/dump_en2$compteurTableau-$compteur.txt\" target="_blank">$compteurTableau-$compteur</a></td>
				<td align=\"center\"><a href=\"../DUMP-TEXT/idx_en2/idx_en2-$compteurTableau-$compteur.txt\" target="_blank">idx_en2-$compteurTableau-$compteur</a></td>
				<td align=\"center\"><a href=\"../DUMP-TEXT/bigrammes_en2/bigramme_en2-$compteurTableau-$compteur.txt\" target="_blank">bigramme_en2-$compteurTableau-$compteur</a></td>
				<td align=\"center\"><a href=\"../CONTEXTES/contexte_en2/contxt_en2-$compteurTableau-$compteur.txt\" target="_blank">contxt_en2-$compteurTableau-$compteur</a></td>
				<td align=\"center\"><a href=\"../CONTEXTES/contexte_en2/contxt_en2-$compteurTableau-$compteur-html.html\" target="_blank">contxt_en2-$compteurTableau-$compteur-html</a></td>
				<td align=\"center\">$nb_motif</td>
				</tr>" >> $dossier_tableau/tableau.html
				
	elif [[ $fichier == "url_french.txt" ]]
	then 
	
		reponse=$(iconv -l | egrep -io $encodage)
		iconv -f $reponse -t "UTF-8"
								
		encodage="UTF-8 converted"
																														
		echo "$txt" > ./DUMP-TEXT/dump_fr/dump_fr"$compteurTableau-$compteur".txt
																								
		cat ./DUMP-TEXT/dump_fr/dump_fr"$compteurTableau-$compteur".txt | egrep -io "\w+" |sort| uniq -c |sort -rn > ./DUMP-TEXT/idx_fr/idx_fr-"$compteurTableau-$compteur".txt
								
		python3 ./PROGRAMMES/bigramme/main.py ./DUMP-TEXT/dump_fr/dump_fr"$compteurTableau-$compteur".txt > ./DUMP-TEXT/bigrammes_fr/bgm_fr"$compteurTableau-$compteur".txt
						
		cat ./DUMP-TEXT/bigrammes_fr/bgm_fr"$compteurTableau-$compteur".txt | egrep -io "\['\w+', '\w+'\]"|sort| uniq -c |sort -rn > ./DUMP-TEXT/bigrammes_fr/bigramme_fr"$compteurTableau-$compteur".txt
						
		rm ./DUMP-TEXT/bigrammes_fr/bgm_fr"$compteurTableau-$compteur".txt
								
		cat ./DUMP-TEXT/dump_fr/dump_fr"$compteurTableau-$compteur".txt | egrep -io  "(\w+('s |:|,|\s|\n|.|\"|\t)+){0,5}((s|S)ororités?)(('s |:|,|\s|\n|.|\"|\t|\.)+\w+('s |:|,|\s|\n|.|\"|\t|\.)){0,5}" > ./CONTEXTES/contexte_fr/contxt_fr-"$compteurTableau-$compteur".txt
												
		perl ./PROGRAMMES/minigrepmultilingue-v2/minigrepmultilingue-u8.pl "UTF-8" ./DUMP-TEXT/dump_fr/dump_fr"$compteurTableau-$compteur".txt ./PROGRAMMES/motif_fr.txt ./CONTEXTES/contexte_fr/contxt_fr-"$compteurTableau-$compteur"-html.html
						
		nb_motif=$(egrep -coi "(sororité(s?))" ./CONTEXTES/contexte_fr/contxt_fr-"$compteurTableau-$compteur".txt)

		echo "
				<tr>
				<td align=\"center\">$compteur</td>
				<td align=\"center\">$encodage</td>
				<td align=\"center\">$codeHTTP</td>
				<td align=\"center\"><a href=\"$line\" target="_blank">$line</a></td>
				<td align=\"center\"><a href=\"../PAGES-ASPIREES/french/$compteurTableau-$compteur.html\" target="_blank">$compteurTableau-$compteur</a></td>
				<td align=\"center\"><a href=\"../DUMP-TEXT/dump_fr/dump_fr$compteurTableau-$compteur.txt\" target="_blank">$compteurTableau-$compteur</a></td>
				<td align=\"center\"><a href=\"../DUMP-TEXT/idx_fr/idx_fr-$compteurTableau-$compteur.txt\" target="_blank">idx_fr-$compteurTableau-$compteur</a></td>
				<td align=\"center\"><a href=\"../DUMP-TEXT/bigrammes_fr/bigramme_fr$compteurTableau-$compteur.txt\" target="_blank">bigramme_fr-$compteurTableau-$compteur</a></td>
				<td align=\"center\"><a href=\"../CONTEXTES/contexte_fr/contxt_fr-$compteurTableau-$compteur.txt\" target="_blank">contxt_fr-$compteurTableau-$compteur</a></td>
				<td align=\"center\"><a href=\"../CONTEXTES/contexte_fr/contxt_fr-$compteurTableau-$compteur-html.html\" target="_blank">contxt_fr-$compteurTableau-$compteur-html</a></td>
				<td align=\"center\">$nb_motif</td>
				</tr>" >> $dossier_tableau/tableau.html				
								
	elif [[ $fichier == "url_ru.txt" ]]
	then
	
		txt=$(lynx -dump -nolist -assume_charset=$encodage ./PAGES-ASPIREES/ru/"$compteurTableau-$compteur".html)
		
		reponse=$(iconv -l | egrep -io $encodage)
		iconv -f $reponse -t "UTF-8"
								
		encodage="UTF-8 converted"
						
		echo "$txt" > ./DUMP-TEXT/dump_ru/dump_ru"$compteurTableau-$compteur".txt
																								
		cat ./DUMP-TEXT/dump_ru/dump_ru"$compteurTableau-$compteur".txt | egrep -io "\w+" |sort| uniq -c |sort -rn > ./DUMP-TEXT/index_ru/idx_ru-"$compteurTableau-$compteur".txt
						
		python3 ./PROGRAMMES/bigramme/main.py ./DUMP-TEXT/dump_ru/dump_ru"$compteurTableau-$compteur".txt > ./DUMP-TEXT/bigrammes_ru/bgm_ru"$compteurTableau-$compteur".txt
						
		cat ./DUMP-TEXT/bigrammes_ru/bgm_ru"$compteurTableau-$compteur".txt | egrep -io "\['\w+', '\w+'\]"|sort| uniq -c |sort -rn > ./DUMP-TEXT/bigrammes_ru/bigramme_ru-"$compteurTableau-$compteur".txt
						
		rm ./DUMP-TEXT/bigrammes_ru/bgm_ru"$compteurTableau-$compteur".txt
						
		cat ./DUMP-TEXT/dump_ru/dump_ru"$compteurTableau-$compteur".txt | egrep -io  "(\w+[' \",\#]+){0,5}(сестринств(о|а|у|е|ом|ам|ами|ах)?)([' \",#]+\w+){0,5}" > ./CONTEXTES/contexte_ru/contxt_ru-"$compteurTableau-$compteur".txt
						
						
		perl ./PROGRAMMES/minigrepmultilingue-v2/minigrepmultilingue-u8.pl "UTF-8" ./DUMP-TEXT/dump_ru/dump_ru"$compteurTableau-$compteur".txt ./PROGRAMMES/motif_ru.txt ./CONTEXTES/contexte_ru/contxt_ru-"$compteurTableau-$compteur"-html.html
						
		nb_motif=$(egrep -coi "(сестринств(о|а|у|е|ом|ам|ами|ах)?)" ./CONTEXTES/contexte_ru/contxt_ru-"$compteurTableau-$compteur".txt)
		
		echo "
				<tr>
				<td align=\"center\">$compteur</td>
				<td align=\"center\">$encodage</td>
				<td align=\"center\">$codeHTTP</td>
				<td align=\"center\"><a href=\"$line\" target="_blank">$line</a></td>
				<td align=\"center\"><a href=\"../PAGES-ASPIREES/ru/$compteurTableau-$compteur.html\" target="_blank">$compteurTableau-$compteur</a></td>
				<td align=\"center\"><a href=\"../DUMP-TEXT/dump_ru/dump_ru$compteurTableau-$compteur.txt\" target="_blank">dump_ru$compteurTableau-$compteur</a></td>
				<td align=\"center\"><a href=\"../DUMP-TEXT/index_ru/idx_ru-$compteurTableau-$compteur.txt\" target="_blank">idx_ru-$compteurTableau-$compteur</a></td>
				<td align=\"center\"><a href=\"../DUMP-TEXT/bigrammes_ru/bigramme_ru-$compteurTableau-$compteur.txt\" target="_blank">bigramme_ru-$compteurTableau-$compteur</a></td>
				<td align=\"center\"><a href=\"../CONTEXTES/contexte_ru/contxt_ru-$compteurTableau-$compteur.txt\" target="_blank">contxt_ru-$compteurTableau-$compteur</a></td>
				<td align=\"center\"><a href=\"../CONTEXTES/contexte_ru/contxt_ru-$compteurTableau-$compteur-html.html\" target="_blank">contxt_ru-$compteurTableau-$compteur-html</a></td>
				<td align=\"center\">$nb_motif</td>
				</tr>" >> $dossier_tableau/tableau.html		
				
	fi 	
}


erreur(){
	echo "problème code http"
	echo "
			<tr>
				<td align=\"center\">$compteur</td>
				<td>-</td>
				<td><span style=\"background-color:red\">$codeHTTP</span></td>
				<td><a href=\"$line\" target="_blank">$line</a></td>
				<td>-</td>
				<td>-</td>
				<td>-</td>
				<td>-</td>
				<td>-</td>
				<td>-</td>
				<td>-</td>
			</tr>" >> $dossier_tableau/tableau.html
}

html_entete

compteurTableau=0

for fichier in $(ls $dossier_url); do
	echo $fichier
	compteurTableau=$(($compteurTableau+1))
	compteur=0
	echo "<h1>Tableau n°$compteurTableau : $fichier</h1>" >> $dossier_tableau/tableau.html
	echo "<table align=\"center\" border=\"1px\" bordercolor=black>" >> $dossier_tableau/tableau.html
	echo "<font>
             <th width="35px">Num</th>
             <th width="70px">Encodage</th>
             <th width="35px">Http code</th>
            <th>URL</th>
          	<th width="30px">P.A.</th>
          	<th width="45px">Dump Text</th>
          	<th width="83px">Unigramme</th>
          	<th width="75px">Bigramme</th>
          	<th width="65px">Contexte</th>
          	<th width="65px">Contexte HTML</th>
          	<th width="40px">Fq <br>Motif</th>
    	</font>" >> $dossier_tableau/tableau.html

	while read line; do 
		compteur=$(($compteur+1))

		echo $compteur $line
		
		if [[ $fichier == "url_en.txt" ]]
		then 
		codeHTTP=$(curl --location -A "Mozilla/4.0" $line -w "%{http_code}\n" -o ./PAGES-ASPIREES/en1/"$compteurTableau-$compteur".html)
		
		elif [[ $fichier == "url_en2.txt" ]]
		then 
		codeHTTP=$(curl --location -A "Mozilla/4.0" $line -w "%{http_code}\n" -o ./PAGES-ASPIREES/en2/"$compteurTableau-$compteur".html)
		
		elif [[ $fichier == "url_french.txt" ]]
		then 
		codeHTTP=$(curl $line -w "%{http_code}\n" -o ./PAGES-ASPIREES/french/"$compteurTableau-$compteur".html)
		
		elif [[ $fichier == "url_ru.txt" ]]
		then 
		codeHTTP=$(curl $line -w "%{http_code}\n" -o ./PAGES-ASPIREES/ru/"$compteurTableau-$compteur".html)
		
		fi
				
		if [[ $codeHTTP == 200 ]]
		then 
			echo $codeHTTP
			encodage=$(curl $line | egrep "charset" | cut -d"=" -f4 | cut -d"\"" -f1 | tr [a-z] [A-Z])

			if [[ $encodage=="UTF-8" ]] 
			then
				echo "UTF-8"
				traitement_url_utf8
			else
				echo "encodage pas UTF-8"
				traitement_not_utf8
			fi	
		elif [[ $codeHTTP != 200 ]]
		then
			echo "erreur code HTTP"
			erreur		
		fi	
			
	done < $dossier_url/$fichier
	
echo "</table>" >> $dossier_tableau/tableau.html
done
echo "</body>
</html>" >> $dossier_tableau/tableau.html
exit
			
		

Ce script python nous a permis de réaliser la concaténation de tous nos fichiers dump.
Pour chaque langue, le programme va aller chercher les fichiers dump créés à partir du script bash de traitement puis les nettoyer un par un en enlevant un maximum de bruit dans chaque fichier. Une fois ce traitement effectué, une balise <fichier="nom_du_ficher"> sera ajoutée au fichier qui contiendra le corpus. Après cette balise, le texte du fichier nettoyé en traitement sera ajouté puis une balise fermante </fichier> viendra cloturer la partie du fichier courant avant de passer au suivant et de répéter cette étape pour tout les fichiers contenus dans le répertoire.

Un corpus sera créé pour chaque langue.
Il se peut que les fichiers ne soit pas traités dans l'ordre alphabétique de leur nom, mais cela n'a pas d'influence sur l'analyse qui sera faite de ces corpus par la suite sur iTrameur.

Le programme peut être exécuté depuis le terminal avec la commande "python3 chemin_programme".

NB: faites attention à utiliser les bons format de chemin pour les variables path suivant si vous êtes sous Windows ou MacOS

			
from os import listdir
import re

def concat_dump ():
    dossier_dt = "/Users/julie/Desktop/PROJET-MOT-SUR-LE-WEB/DUMP-TEXT/"
    concat_dump_en1 = open("concat_dump_en1.xml", "w")
    concat_dump_en2 = open("concat_dump_en2.xml", "w")
    concat_dump_french = open("concat_dump_french.xml", "w")
    concat_dump_ru = open("concat_dump_ru.xml", "w")

    for dossiers in listdir(dossier_dt):
         if dossiers == "dump_en1":
             print("ok")
             for fichiers in listdir(dossier_dt+dossiers):
                print(fichiers)
                with open(dossier_dt+dossiers+"/"+fichiers, encoding="UTF-8", errors="ignore") as txt:
                    txt = txt.read()
                    txt = re.sub(r"^\s*", "", txt, flags=re.MULTILINE)
                    txt = re.sub(r"^(\*|\+|o|IFRAME|\(BUTTON\)|#|\[|_|\().*", "", txt, flags=re.MULTILINE)
                    txt = re.sub(r"^\s*", "", txt, flags=re.MULTILINE)
                    txt = txt.lower()
                    txt = re.sub(r"\n", r"</ligne>\n<ligne>", txt, flags=re.MULTILINE)

                    concat_dump_en1.write(f'<?xml version="1.0" encoding=\"UTF-8\"?>'+"\n"+'<fichier=\"'+str(fichiers)+'\">'+"\n"+"<ligne>"+txt+"</fichier>"+"\n")

         elif dossiers == "dump_en2":
             print("ok")
             for fichiers in listdir(dossier_dt + dossiers):
                 print(fichiers)
                 with open(dossier_dt + dossiers + "/" + fichiers, encoding="UTF-8", errors="ignore") as txt:
                    txt = txt.read()
                    txt = re.sub(r"^\s*", "", txt, flags=re.MULTILINE)
                    txt = re.sub(r"^(\*|\+|o|IFRAME|\(BUTTON\)|#|\[|_|\().*", "", txt, flags=re.MULTILINE)
                    txt = re.sub(r"^\s*", "", txt, flags=re.MULTILINE)
                    txt = txt.lower()
                    txt = re.sub(r"\n", r"</ligne>\n<ligne>", txt, flags=re.MULTILINE)
                    
                    concat_dump_en2.write(f'<?xml version="1.0" encoding=\"UTF-8\"?>'+"\n"+'<fichier=\"'+str(fichiers)+'\">'+"\n"+"<ligne>"+txt+"</fichier>"+"\n")

         elif dossiers == "dump_fr":
             print("ok")
             for fichiers in listdir(dossier_dt+dossiers):
                print(fichiers)
                with open(dossier_dt+dossiers+"/"+fichiers, encoding="UTF-8", errors="ignore") as txt:
                    txt = txt.read()
                    txt = re.sub(r"^\s*", "", txt, flags=re.MULTILINE)
                    txt = re.sub(r"^(\*|\+|o|IFRAME|\(BUTTON\)|#|\[|_|\().*", "", txt, flags=re.MULTILINE)
                    txt = re.sub(r"^\s*", "", txt, flags=re.MULTILINE)
                    txt = txt.lower()
                    txt = re.sub(r"\n", r"</ligne>\n<ligne>", txt, flags=re.MULTILINE)

                    concat_dump_french.write(f'<?xml version="1.0" encoding=\"UTF-8\"?>'+"\n"+'<fichier=\"'+str(fichiers)+'\">'+"\n"+"<ligne>"+txt+"</fichier>"+"\n")

         elif dossiers == "dump_ru":
                print("ok")
                for fichiers in listdir(dossier_dt + dossiers):
                    print(fichiers)
                    with open(dossier_dt + dossiers + "/" + fichiers, encoding="UTF-8", errors="ignore") as txt:
                        txt = txt.read()
                        txt = re.sub(r"^\s*", "", txt, flags=re.MULTILINE)
                        txt = re.sub(r"^(\*|\+|o|IFRAME|\(BUTTON\)|#|\[|_|\().*", "", txt, flags=re.MULTILINE)
                        txt = re.sub(r"^\s*", "", txt, flags=re.MULTILINE)
                        txt = txt.lower()
                        txt = re.sub(r"\n", r"</ligne>\n<ligne>", txt, flags=re.MULTILINE)

                        concat_dump_ru.write(f'<?xml version="1.0" encoding=\"UTF-8\"?>'+"\n"+'<fichier=\"'+str(fichiers)+'\">'+"\n"+"<ligne>"+txt+"</fichier>"+"\n")

def concat_contxt():
    dossier_contxt = "/Users/julie/Desktop/PROJET-MOT-SUR-LE-WEB/CONTEXTES/"
    concat_contxt_en1 = open("concat_contxt_en1.txt", "w")
    concat_contxt_en2 = open("concat_contxt_en2.txt", "w")
    concat_contxt_french = open("concat_contxt_french.txt", "w")
    concat_contxt_ru = open("concat_contxt_ru.txt", "w")

    for dossiers in listdir(dossier_contxt):
        if dossiers == "contexte_en1":
            for fichiers in listdir(dossier_contxt+dossiers):
                if fichiers.endswith(".txt"):
                    with open(dossier_contxt+dossiers+"/"+fichiers, encoding="UTF-8", errors="ignore") as txt:
                        txt = txt.read()
                        concat_contxt_en1.write(txt)

        elif dossiers == "contexte_en2":
            for fichiers in listdir(dossier_contxt+dossiers):
                if fichiers.endswith(".txt"):
                    with open(dossier_contxt+dossiers+"/"+fichiers, encoding="UTF-8", errors="ignore") as txt:
                        txt = txt.read()
                        concat_contxt_en2.write(txt)

        elif dossiers == "contexte_fr":
            for fichiers in listdir(dossier_contxt+dossiers):
                if fichiers.endswith(".txt"):
                    with open(dossier_contxt+dossiers+"/"+fichiers, encoding="UTF-8", errors="ignore") as txt:
                        txt = txt.read()
                        concat_contxt_french.write(txt)

        elif dossiers == "contexte_ru":
            for fichiers in listdir(dossier_contxt+dossiers):
                if fichiers.endswith(".txt"):
                    with open(dossier_contxt+dossiers+"/"+fichiers, encoding="UTF-8", errors="ignore") as txt:
                        txt = txt.read()
                        concat_contxt_ru.write(txt)


concat_dump()
concat_contxt()
			
		
			
from os import listdir
import re

def concat_dump ():
    dossier_dt = "C:\\Users\\elisa\\Downloads\\Projet encadré\\PROJET-MOT-SUR-LE-WEB\\DUMP-TEXT\\"
    concat_dump_en1 = open("concat_dump_en1.xml", "w", encoding="utf-8")
    concat_dump_en2 = open("concat_dump_en2.xml", "w", encoding="utf-8")
    concat_dump_french = open("concat_dump_french.xml", "w", encoding="utf-8")
    concat_dump_ru = open("concat_dump_ru.xml", "w", encoding="utf-8")

    for dossiers in listdir(dossier_dt):
         if dossiers == "dump_en1":
             print("ok")
             for fichiers in listdir(dossier_dt+dossiers):
                print(fichiers)
                with open(dossier_dt+dossiers+"/"+fichiers, encoding="UTF-8", errors="ignore") as txt:
                    txt = txt.read()
                    txt = re.sub(r"^\s*", "", txt, flags=re.MULTILINE)
                    txt = re.sub(r"^(\*|\+|o|IFRAME|\(BUTTON\)|#|\[|_|\().*", "", txt, flags=re.MULTILINE)
                    txt = re.sub(r"^\s*", "", txt, flags=re.MULTILINE)
                    txt = txt.lower()
                    txt = re.sub(r"\n", r"</ligne>\n<ligne>", txt, flags=re.MULTILINE)

                    concat_dump_en1.write(f'<?xml version="1.0" encoding=\"UTF-8\"?>'+"\n"+'<fichier=\"'+str(fichiers)+'\">'+"\n"+"<ligne>"+txt+"</fichier>"+"\n")

         elif dossiers == "dump_en2":
             print("ok")
             for fichiers in listdir(dossier_dt + dossiers):
                 print(fichiers)
                 with open(dossier_dt + dossiers + "/" + fichiers, encoding="UTF-8", errors="ignore") as txt:
                    txt = txt.read()
                    txt = re.sub(r"^\s*", "", txt, flags=re.MULTILINE)
                    txt = re.sub(r"^(\*|\+|o|IFRAME|\(BUTTON\)|#|\[|_|\().*", "", txt, flags=re.MULTILINE)
                    txt = re.sub(r"^\s*", "", txt, flags=re.MULTILINE)
                    txt = txt.lower()
                    txt = re.sub(r"\n", r"</ligne>\n<ligne>", txt, flags=re.MULTILINE)
                    
                    concat_dump_en2.write(f'<?xml version="1.0" encoding=\"UTF-8\"?>'+"\n"+'<fichier=\"'+str(fichiers)+'\">'+"\n"+"<ligne>"+txt+"</fichier>"+"\n")

         elif dossiers == "dump_fr":
             print("ok")
             for fichiers in listdir(dossier_dt+dossiers):
                print(fichiers)
                with open(dossier_dt+dossiers+"/"+fichiers, encoding="UTF-8", errors="ignore") as txt:
                    txt = txt.read()
                    txt = re.sub(r"^\s*", "", txt, flags=re.MULTILINE)
                    txt = re.sub(r"^(\*|\+|o|IFRAME|\(BUTTON\)|#|\[|_|\().*", "", txt, flags=re.MULTILINE)
                    txt = re.sub(r"^\s*", "", txt, flags=re.MULTILINE)
                    txt = txt.lower()
                    txt = re.sub(r"\n", r"</ligne>\n<ligne>", txt, flags=re.MULTILINE)

                    concat_dump_french.write(f'<?xml version="1.0" encoding=\"UTF-8\"?>'+"\n"+'<fichier=\"'+str(fichiers)+'\">'+"\n"+"<ligne>"+txt+"</fichier>"+"\n")

         elif dossiers == "dump_ru":
                print("ok")
                for fichiers in listdir(dossier_dt + dossiers):
                    print(fichiers)
                    with open(dossier_dt + dossiers + "/" + fichiers, encoding="UTF-8", errors="ignore") as txt:
                        txt = txt.read()
                        txt = re.sub(r"^\s*", "", txt, flags=re.MULTILINE)
                        txt = re.sub(r"^(\*|\+|o|IFRAME|\(BUTTON\)|#|\[|_|\().*", "", txt, flags=re.MULTILINE)
                        txt = re.sub(r"^\s*", "", txt, flags=re.MULTILINE)
                        txt = txt.lower()
                        txt = re.sub(r"\n", r"</ligne>\n<ligne>", txt, flags=re.MULTILINE)

                        concat_dump_ru.write(f'<?xml version="1.0" encoding=\"UTF-8\"?>'+"\n"+'<fichier=\"'+str(fichiers)+'\">'+"\n"+"<ligne>"+txt+"</fichier>"+"\n")

def concat_contxt():
    dossier_contxt = "C:\\Users\\elisa\\Downloads\\Projet encadré\\PROJET-MOT-SUR-LE-WEB\\CONTEXTES\\"
    concat_contxt_en1 = open("concat_contxt_en1.txt", "w", encoding="UTF-8")
    concat_contxt_en2 = open("concat_contxt_en2.txt", "w", encoding="UTF-8")
    concat_contxt_french = open("concat_contxt_french.txt", "w", encoding="UTF-8")
    concat_contxt_ru = open("concat_contxt_ru.txt", "w", encoding="UTF-8")

    for dossiers in listdir(dossier_contxt):
        if dossiers == "contexte_en1":
            for fichiers in listdir(dossier_contxt+dossiers):
                if fichiers.endswith(".txt"):
                    with open(dossier_contxt+dossiers+"/"+fichiers, encoding="UTF-8", errors="ignore") as txt:
                        txt = txt.read()
                        concat_contxt_en1.write(txt)

        elif dossiers == "contexte_en2":
            for fichiers in listdir(dossier_contxt+dossiers):
                if fichiers.endswith(".txt"):
                    with open(dossier_contxt+dossiers+"/"+fichiers, encoding="UTF-8", errors="ignore") as txt:
                        txt = txt.read()
                        concat_contxt_en2.write(txt)

        elif dossiers == "contexte_fr":
            for fichiers in listdir(dossier_contxt+dossiers):
                if fichiers.endswith(".txt"):
                    with open(dossier_contxt+dossiers+"/"+fichiers, encoding="UTF-8", errors="ignore") as txt:
                        txt = txt.read()
                        concat_contxt_french.write(txt)

        elif dossiers == "contexte_ru":
            for fichiers in listdir(dossier_contxt+dossiers):
                if fichiers.endswith(".txt"):
                    with open(dossier_contxt+dossiers+"/"+fichiers, encoding="UTF-8", errors="ignore") as txt:
                        txt = txt.read()
                        concat_contxt_ru.write(txt)


concat_dump()
concat_contxt()
			
		
Retourner en haut