Préambule
Cette version du corpus se distingue du précédent de la manière suivante :
- Dans la version précédente du corpus, le processus de filtrage des parties textuelles se fait en utilisant la commande Unix lynx -dump sur les pages HTML originales, or ces pages contiennent systématiquement un sommaire de chaque rubrique pour une journée donnée. On avait donc, sur chaque version "nettoyée" une "surcharge" textuelle correspondant au rappel de ces rubriques.
- Dans cette nouvelle version, le processus de filtrage textuel se fait toujours avec la même commande Unix mais un filtrage préalable des zones textuelles est opéré : on commence par isoler les contenus textuels correspondant au nom de la Rubrique, du Titre de l'Article et de son contenu "propre". Les pages HTML originales sont assez bien structurées et permettent d'isoler ces zones et a fortiori de négliger le sommaire qu'elles contiennent aussi.
- Le corpus présenté ici couvre aussi une période plus longue (fin : mi-novembre 2004 au lieu de mi-octobre pour le précédent).
Corpus
Corpus "Le Monde" : Version électronique du journal "Le Monde", 2003/2004
Présentation générale
- Période traitée : Avril 2003 - Novembre 2004
- Nombre d'articles : plus de 5000 articles (pour le CORPUS FRANCE qui regroupe les rubriques "France" et "France-Société").
- Présentation du projet de veille : Corpus Chronologique "Le Monde"
- Corpus Chronologique "Le Monde" : accès aux données (accès restreint)
- Corpus Chronologique "Le Monde" (miroir) : accès aux données (accès restreint, intranet ILPGA)
- Utilisation de corpus thématiques extraits du corpus complet [0] : rubriques "France", "France-Société", "Société", "International".
- Paramètres lexicométriques du CORPUS FRANCE (rubriques "France" et "France-Société").
- Paramètres lexicométriques du CORPUS SOCIETE (rubrique "Société").
- Paramètres lexicométriques du CORPUS INTERNATIONAL (rubrique "International").
Données à utiliser
Les mots et leur fréquence
- Les Mots du Monde (accès restreint) (ou ici accès restreint, intranet ILPGA ) : pour chaque journée, index et fréquence de chaque "mot" du journal dans son ensemble.
Formes de la famille laïcité
- CORPUS FRANCE - Liste tous les mots couverts par l'expression régulière utilisée pour repérer tous les mots qui commencent par "laïc" ou "laïq" [i.e. \blaï(c|q).*\b] : Famille laïcité (remarque : on ne trouve pas dans ce corpus de forme contenant "laï(c|q)" ailleurs qu'en début de mot).
- CORPUS SOCIETE - Liste tous les mots couverts par l'expression régulière utilisée pour repérer tous les mots qui commencent par "laïc" ou "laïq" [i.e. \blaï(c|q).*\b] : Famille laïcité (remarque : idem).
- CORPUS INTERNATIONAL - Liste tous les mots couverts par l'expression régulière utilisée pour repérer tous les mots qui contiennent la séquence "laïc" ou "laïq" [i.e. \b.*laï(c|q).*\b] : Famille laïcité (remarque : contrairement aux deux corpus précédents, on retrouve ici des formes avec préfixes).
Evolution dans le temps
- Les graphiques qui suivent donnent une représentation de la ventilation et de l'évolution chronologique des mots sélectionnés sur la période utilisée (découpage en mois).
- CORPUS FRANCE - Graphique de ventilation n°1 (valeur relative) : laïcité
- CORPUS FRANCE - Graphique de ventilation n°2 (valeur absolue) : laïcité
- CORPUS FRANCE - Graphique de ventilation n°3 (valeur relative) : \blaï(c|q).*\b
- CORPUS FRANCE - Graphique de ventilation n°4 (valeur absolue) : \blaï(c|q).*\b
Contexte
- "Les concordances fournissent, sur l'emploi d'une forme donnée, une vision plus synthétique que celle qui résulte de la lecture séquentielle. En particulier, elles permettent d'étudier plus facilement les rapports qui peuvent exister entre les différents contextes d'une même forme" [1].
- CORPUS FRANCE - Concordance n°1 : \blaï(c|q).*\b
- CORPUS FRANCE - Concordance n°2 : \blaï(c|q).*\b
- CORPUS FRANCE - Concordance n°3 : \blaï(c|q).*\b
- CORPUS FRANCE - Concordance n°4 : \blaï(c|q).*\b
- CORPUS FRANCE - Concordance n°5 : \blaï(c|q).*\b
- CORPUS FRANCE - Concordance n°6 : \blaï(c|q).*\b
- CORPUS FRANCE - Segments répétés [2] : (1) avec la forme "laïcité"
- CORPUS FRANCE - Segments répétés [2] : (2) l'ensemble (Attention fichier de 8 Mo)
- CORPUS FRANCE - Segments répétés [2] : (3) avec la séquence "laï(c|q)"
"Vers des constellations"
- CORPUS FRANCE : (1) Représentation topographique de la répartition de \blaï(c|q).*\b. Dans la figure présentée, Lexico3 a construit une représentation graphique du texte (qu'on appelle aussi une carte des sections, et ici : une section = un article) dans laquelle un carré rouge contient un ou des éléments de cette famille de formes
- CORPUS FRANCE : (2) Mots spécifiques ([3], [4]) dans les sections contenant un mot de la famille \blaï(c|q).*\b (i.e. les co-occurrents de laïcité). A partir de la carte des sections précédente, on demande à Lexico3 de rechercher les mots spécifiques contenus dans l'ensemble des carrés rouges, c'est à dire qu'on lui demande de rechercher les mots spécifiques dans les sections qui contiennent un mot de la famille \blaï(c|q).*\b. On obtient une liste de mots qui portent soit un indice de spécificité positif[3] soit un indice de spécificité négatif[4], dans le premier cas, on aboutit en gros à une liste des co-occurrents des mots de la famille \blaï(c|q).*\b, dans le second cas on obtient des mots qui n'apparaissent pas avec cette famille de mots.
Avec annotations syntaxiques
- Corpus étiqueté et lemmatisé : A partir du corpus global, (1) Extraction des articles contenant le motif \blaï(c|q).*\b (le corpus résultant compte un peu plus de 500 articles) (2) puis étiquetage avec Cordial. On dispose in fine de plusieurs fichiers : [LEMME-CATEGORIE], [LEMME], [CATEGORIE], [FORME-CATEGORIE].
[LEMME-CATEGORIE] CORPUS FRANCE - Concordance n°7 : \blaï(c|q).*\b
[LEMME] CORPUS FRANCE - Concordance n°8 : \blaï(c|q).*\b
[FORME-CATEGORIE] CORPUS FRANCE - Concordance n°9 : \blaï(c|q).*\b
Mêmes "parcours" en regardant d'autres rubriques
- CORPUS SOCIETE - Graphique de ventilation n°5 (valeur relative) : laïcité
- CORPUS SOCIETE - Graphique de ventilation n°6 (valeur absolue) : laïcité
- CORPUS SOCIETE - Graphique de ventilation n°7 (valeur relative) : \blaï(c|q).*\b
- CORPUS SOCIETE - Graphique de ventilation n°8 (valeur absolue) : \blaï(c|q).*\b
- CORPUS SOCIETE - Concordance n°10 : \blaï(c|q).*\b
- CORPUS SOCIETE - Segments répétés [2] : (1) l'ensemble (Attention fichier de 3 Mo)
- CORPUS SOCIETE - Segments répétés [2] : (2) avec la forme "laïcité"
- CORPUS SOCIETE - Segments répétés [2] : (3) avec la séquence "laï(c|q)"
- CORPUS INTERNATIONAL - Graphique de ventilation n°9 (valeur relative) : laïcité
- CORPUS INTERNATIONAL - Graphique de ventilation n°10 (valeur absolue) : laïcité
- CORPUS INTERNATIONAL - Graphique de ventilation n°11 (valeur relative) : \b.*laï(c|q).*\b
- CORPUS INTERNATIONAL - Graphique de ventilation n°12 (valeur absolue) : \b.*laï(c|q).*\b
- CORPUS INTERNATIONAL - Concordance n°11 : \b.*laï(c|q).*\b
- CORPUS INTERNATIONAL - Segments répétés [2] : (1) avec la séquence "laï(c|q)"
- CORPUS COMPLET - Concordance n°12 : \b.*laï(c|q).*\b et regroupement par Rubrique
[0] Le CORPUS FRANCE utilisé ici regroupe les rubriques "France" et "France-Société", le CORPUS SOCIETE contient les articles de la seule rubrique "Société", et le corpus INTERNATIONAL regroupe les articles de la rubrique "International"..
[1] L. Lebart, A. Salem, Statistique Textuelle, DUNOD, 1994 (p. 54).
[2] Le seuil de sélection des segments est celui fourni par défaut sous Lexico3, sa valeur est 10, i.e on ne récupère ici que les segments dont la fréquence est supérieure ou égale à 10.
[3] spécificité positive - (sp) pour un seuil de spécificité fixé, une forme i et une partie j données, la forme i est dite spécifique positive de la partie j (ou forme caractéristique* de cette partie) si sa sous-fréquence est "anormalement élevée" dans cette partie. De façon plus précise, si la somme des probabilités calculées à partir du modèle hypergéométrique pour les valeurs égales ou supérieures à la sous-fréquence constatée est inférieure au seuil fixé au départ (cf note [1]).
[4] spécificité négative - (sp) pour un seuil de spécificité fixé, une forme i et une partie j données, la forme i est dite spécifique négative de la partie j si sa sous-fréquence est anormalement faible dans cette partie. De façon plus précise, si la somme des probabilités calculées à partir du modèle hypergéométrique pour les valeurs égales ou inférieures à la sous-fréquence constatée est inférieure au seuil fixé au départ (cf note [1]).
http://pluriTAL.org | pluriTAL ©2016, INALCO, Paris Ouest, Paris 3