minrus minl minhw minig

wget

Pour installer wget sous cygwin par exemple, il suffit de mettre à jours les paquets et de vérifier nous avons ou non téléchargé tous les paquets nécessaires, de compléter si besoin. Wget tout comme curl permet l’aspiration et le stockage local d’une p à partir de la ligne de commande ou d’une série de liens à partir d’un script comme nous l’avons fait. Wget peut être utilisé avec différentes options. Une fois wget installé, il suffit de faire wget –help dans la ligne de commande pour obtenir le détail des options et fonctionnalités.

miwg

curl

Pour pouvoir utiliser curl sous cygwin, nous avons téléchargé les paquets liées à libcurl-devel (Devel, Net, Web), appelé curl-devel sous Cygwin 1.5. Curl permet l’aspiration et le stockage local d’une page à partir de la ligne de commande ou d’une série de liens à partir d’un script nous l'avons fait. Curl dispose d’une batterie d’options à explorer, taper wget --help dans la ligne de commande pour plus de détails.

mihc

lynx

Lynx est un navigateur fonctionnant en mode texte. Il peut être téléchargé ici.Ce navigateur supporte un certain nombre de protocoles dont HTTPS, http ou FTP. Lynx à un large éventail d’options possibles et consultables en tapant lynx –help en ligne de commande. Nous l’avons par exemple utilisé avec les options -dump et -nolist. Lynx peut permettre la sauvegardes de pages au format .txt par exemple.

mihc

iconv

La commande iconv permet de convertir l’encodage des caractères d’un fichier, d’un jeu de caractères codés en un autre jeu de caractères. La conversion est réalisée du jeu d'origine (-f) vers le jeu défini (-t) ou correspondant à celui qui est liés par défaut lié aux paramètres locaux. Cette commande peut être modifiée grâce à plusieurs options voir iconv –help. Cette commande est puissante et reconnait a priori une grande variété de systèmes d’encodage (près de 450).

mihc

file

La commande file peut être utilisée pour rechercher l’encodage des pages fraichement aspirées. Nous avons pour se faire en plus des options associé la commande file à la commande cut, commande qui comme son nom l’indique a pour fonction de couper et stocké le résultat dans la variable encodage:
encodage=$(file -i ../PAGES-ASPIREES/Langue_$fichfich/p_$i.html | cut -d= -f2)

egrep

La commande egrep est une commande unix très usitée. Elle permet de recherche un motif dans un fichier ou un répertoire donné. Egrep accepte les recherches multiples, les expressions régulières. Nous avons recherché l'expression (աթեիստ*|\bath?eis\b|athée|नास्तिक|атеи).

mihc

minigrep

Ce programme permet de rechercher le contexte trouvé autour d’un motif (pouvant être une expression régulière), il recherche l’expression et son contexte dans un fichier encodé en utf-8 et au format texte (.txt) et fourni les résultats dans un fichier texte.

mi miar

Nous avons téléchargé ce programme à partir de ce site où vous trouverez également des explications détaillées. Le téléchargement ne se suffit pas en lui-même. Il convient d'installer le programme et de vérifier que tous les programmes nécessaires au bon fonctionnement de minigrep sont bien présents dans l'ordinateur. Pour ces étapes-là, nous avons scrupuleusement suivi les explications données dans le blog suivant (cliquer CTRL+F minigrep une foix dans le blog pour un accés rapide à l'article traitant du sujet).

trameur

Le trameur est un outils de textométrie aux multiples fonctionnalités, qui mérite d'être exploré. Il fonctionne en association avec deux programmes extérieurs treetager et pajek. Il peut-être téléchargé ici, vous trouverez en prime un manuel complet et toutes les informations nécessaires à l'installation du programme.