Préambule

Cette version du corpus se distingue du précédent de la manière suivante :

Corpus

Corpus "Le Monde" : Version électronique du journal "Le Monde", 2003/2004

Présentation générale
Données à utiliser
Les mots et leur fréquence
Formes de la famille laïcité
Evolution dans le temps
Contexte
"Vers des constellations"
Avec annotations syntaxiques
Mêmes "parcours" en regardant d'autres rubriques


[0] Le CORPUS FRANCE utilisé ici regroupe les rubriques "France" et "France-Société", le CORPUS SOCIETE contient les articles de la seule rubrique "Société", et le corpus INTERNATIONAL regroupe les articles de la rubrique "International"..

[1] L. Lebart, A. Salem, Statistique Textuelle, DUNOD, 1994 (p. 54).

[2] Le seuil de sélection des segments est celui fourni par défaut sous Lexico3, sa valeur est 10, i.e on ne récupère ici que les segments dont la fréquence est supérieure ou égale à 10.

[3] spécificité positive - (sp) pour un seuil de spécificité fixé, une forme i et une partie j données, la forme i est dite spécifique positive de la partie j (ou forme caractéristique* de cette partie) si sa sous-fréquence est "anormalement élevée" dans cette partie. De façon plus précise, si la somme des probabilités calculées à partir du modèle hypergéométrique pour les valeurs égales ou supérieures à la sous-fréquence constatée est inférieure au seuil fixé au départ (cf note [1]).

[4] spécificité négative - (sp) pour un seuil de spécificité fixé, une forme i et une partie j données, la forme i est dite spécifique négative de la partie j si sa sous-fréquence est anormalement faible dans cette partie. De façon plus précise, si la somme des probabilités calculées à partir du modèle hypergéométrique pour les valeurs égales ou inférieures à la sous-fréquence constatée est inférieure au seuil fixé au départ (cf note [1]).