Lundi 6 février 2012
Lien vers le script
- #!/bin/bash la ligne impotance pour le script Bash.
- la commande curl : permet d'aspirer la page web.
- la commande iconv : permet de convertir l'encodage à l'autre l'encodage.
- la commande lynx : permet d'extraire le texte, récupérer (dump) dans un fichier texte, les fichiers issu du traitement par lynx sont des textes brut.
- egrep : permet d'extraire le texte autour des mots choisis.
Les balise HTML
- la balise html & /html : la première balise de la page html, qui contient tous les balises
- la balise head & /head : balise tête de la page html
- la balise title & /title : balise où l'on met le titre de la page.
- la balise body & /body : balise où l'on met le contenu
- la balise table & /table : balise qui permet de créer un tableau
- la balisep p = paragraph : balise permettant d'écrire un paragraphe de texte
- la balise tr & /tr = table row : balise qui, placée entre les balises table, qui permet de créer une ligne de tableau
- la balise td & /td = table data : balise qui, placée entre les balises table et td, qui permet de créer une cellule