Ajuster corpus et objectifs - 3e séance
Serge Fleury & Benoît Habert
BELMOUHOUB Rachid (INALCO) belmouhoub.rachid@libertysurf.fr
CHEVRIER Sophie (INALCO) chevriersophie@yahoo.fr
Retour au cours
TD 2ème séance
Le corpus LM10 et les dépendances syntaxiques
Prendre connaissance de la présentation
de ce corpus, de la signalétique associée et des annotations
disponibles (triplets correspondant à des dépendances syntaxiques).
Principales informations
extraites des dépendances syntaxiques
Que penser de la taille du corpus des documents comprenant un mot de la famille
"laïcité" (cf. paramètres lexicométriques du corpus)
par rapport à celle de LM10 ?
Le corpus des documents comprenant un mot de la famille laïcité est constitué de 2 769 945 mots tandis que le corpus LM10 est constitué de 200 millions de mots. Il représente donc 1,4% de la totalité du corpus LM10, ce qui peut paraître relativement important.
Les grands mouvements sur 10 ans
Examiner le nombre de triplets et de documents au fil des ans dans les informations
sur les dépendances syntaxiques. Repère-t-on des constantes
et/ou des moments singuliers ?
Le tableau qui suit nous renseigne sur le nombre de triplets, de documents et de triplets par documents pour les mots de la famille laïcité dans le corpus LM10 de l'année 1990 à l'année 1999.
Année |
Triplets |
Documents |
Triplets par document |
90 |
493 |
250 |
1.97 |
91 |
512 |
237 |
2.16 |
92 |
484 |
247 |
1.96 |
93 |
694 |
292 |
2.38 |
94 |
1055 |
411 |
2.57 |
95 |
593 |
281 |
2.11 |
96 |
843 |
324 |
2.60 |
97 |
732 |
309 |
2.37 |
98 |
585 |
246 |
2.38 |
99 |
473 |
245 |
1.93 |
D'après l'observation de ce tableau, on observe en 1994 une augmentation du nombre de triplets et de documents contenant un mot de la famille laïcité. On constate aussi une augmentation des triplets et des documents en 1996. Ces augmentations sont expliquées en partie par les événements, ou déclarations, des années concernées (ou légèrement avant celles-ci) qui sont énumérés ci-dessous:
-
27 octobre 1993: publication par M. François Bayrou, ministre de l'éducation nationale, d'une circulaire sur le respect de la laïcité dans les établissements scolaires, qui rappelle, à propos de la question du port du foulard islamique, l'avis du Conseil d'Etat du 27 novembre 1989 et précise qu'il appartient aux chefs d'établissement d'examiner "si un comportement constitue un acte de pression, de provocation, de prosélytisme ou de propagande, s'il trouble l'ordre de l'établissement ou le fonctionnement normal du service public".
- 20 septembre 1994: publication d'une circulaire de M. François Bayrou, réglementant le port de signes religieux dans les établissements scolaires publics: il souhaite "l'interdiction de signes si ostentatoires que leur signification est précisément de séparer certains élèves des règles de vie communes de l'école", alors que "les signes plus discrets" ne peuvent "faire l'objet des mêmes réserves".
- 3 au 10 décembre 1996: le 3, sur RTL, M. François Bayrou, ministre de l'éducation nationale, de l'enseignement supérieur et de la recherche, n'exclut "aucune solution", notamment par voie législative, pour mettre fin aux conflits liés au port du foulard islamique à l'école et juge inacceptables "les signes de l'intégrisme ou de la discrimination entre les hommes et les femmes". Le 10, à l'occasion de la Journée internationale des droits de l'homme, M. Jacques Chirac, président de la République, renouvelle son hostilité au port du foulard islamique à l'école, estimant que celui-ci représente une négation de "l'égale dignité des hommes et des femmes".
(source :
La Documentation Française - Chronologie 1994)
A travers les graphiques d'évolution en fréquence relative
de la famille 'laïcité', résumez les grandes tendances
de l'évolution quand on la considère :
- année après année: on observe une crête de 7 points en 94 et de 8 points en 96 pour laïcité. On observe les mêmes tendances pour la famille de laïcité (b.*laï(c|q).*\b): la crête est de 22 points en 1994 et de 23 points en 1996.
- mois après mois: les graphiques par mois permettent d'affiner les observations et de repérer des augmentations de fréquences de laïcité à d'autres moments que les années 1994 et 1996. Voici les valeurs des crêtes qui apparaissent sur ces graphiques avec les mois concernés:
Mois |
Points |
novembre 1993 / février 1994 |
13 |
août 1994 / novembre 1994 |
09 |
avril 1996 / juin 1996 |
14 |
août 1996 / octobre 1996 |
15 |
novembre 1996 / janvier 1997 |
14 |
février 1997 / mai 1997 |
12 |
septembre 1998 / novembre 1998 |
10 |
novembre 1999 / janvier 2000 |
12 |
août 2000 / novembre 2000 |
11 |
On observe que, la plupart du temps (exceptées les périodes avril 1996 / juin 1996 et février 1997 / mai 1997), les augmentations des fréquences des mots de la famille laïcité ont lieu à peu près au moment de la rentrée scolaire.
Comparez l'évolution suivant qu'on la considère via les formes
ou via les lemmes ? Y a-t-il des changements importants ?
En reprenant les données chronologiques accessibles via la page du
cours, pouvez-vous expliquer l'évolution constatée ?
La famille "laïcité" sur un an / sur 10 ans : approche globale
Comparez les deux listes de mots.
Reprenez la liste pour 10 ans et colorez les formes présentes en 2003-04.
Isoler dans la liste 91-00 :
- les formes qui correspondent à un processus ;
- les fomes qui renvoient à des abstractions (convictions, opinions)
;
- les formes péjoratives.
Pour 91-00, comparer la liste sur les formes et la liste sur les lemmes.
Indiquer les formes qui vous paraissent mal lemmatisées. Quelles conclusions
sur la qualité de la lemmatisation opérérée ?
Pensez-vous que les conséquences sont importantes pour la suite des
traitements ?
Les contextes fondamentaux de laïcité
A partir des tableaux donnant les verbes dont laïcité
est SUJ ou OBJ avec une fréquence > 1 :
- faites une liste des catégories qui vous paraissent pertinentes
pour classer ces verbes (par exemple : définition correspondant à
appeler, définir, consister, signifier). Vous vous reporterez éventuellement
aux concordances fournies (triées à gauche pour OBJ et à
droite pour SUJ). Faites correspondre un code couleur à chaque
catégorie.
- recopier les 2 tableaux et colorer les verbes selon leur catégorie.
- résumez les grandes tendances que vous observez.
Vous compléterez cette étude des verbes auxquels laïcité
est fortement associé par la liste des syntagmes comprenant laïcité
qui figurent en position 2 dans les triplets Syntex.
Les contextes principaux de laïcité au fil du temps
Le tableau sur laïcité en relation SUJ ou OBJ avec une
fréquence > 1, au fil des ans, vous permettra de souligner à
la fois quelques constantes dans l'emploi du mot et quelques changements
ou points particuliers.
Les contextes principaux de laïc
Résumez les enseignements principaux des tableaux sur laïc
en position 1 ou 2 et avec une fréquence >= 5 (ce plancher écrème
déjà sérieusement les listes de triplets). Prenez soin
de recopier les triplets les plus pertinents.
Un mot péjoratif : laïcisme
Extrayez les contextes (triplets) qui soulignent la valeur péjorative
de ce mot (et des mots qui lui sont liés : laïcard, etc.).
La laïcité : un processus
Les mots autour de laïciser renvoient tous à un processus.
On mettra à jour ce qui est l'agent ou le patient de ce processus,
dans un tableau de la forme :
agent
|
patient
|
triplet correspondant
|
|
|
|
|
|
|
Ajustements ?
Adéquation corpus / objectifs
Pour étudier "laïcité" dans les dernières années,
ont été rassemblés :
10 ans (1991-00) du journal "généraliste" Le Monde ;
1 année entière du même journal ;
des sources documentaires variées (chronologie, dossiers spécialisés).
Les données constituées vous paraissent-elles permettre de
donner une image adéquate de la famille de "laïcité" :
à un moment donné (en 2003-04)
sur une période de durée moyenne (1991-00)
Oui, sous réserve des remarques qui suivent.
A votre avis, faudrait-il ajouter d'autres données textuelles et si
oui, lesquelles ?
- un autre quotidien avec une ligne éditoriale différente,
- d'autres médias y compris étrangers,
- presse écrite : hebdomadaires, mensuels,
- radio et télévision : émissions de débat, journaux, reportages.
Adéquation traitements / objectifs
Ont été mis à contribution pour approche "laïcité"
et sa famille plusieurs niveaux de représentation :
- "texte nu" ;
- texte lemmatisé ;
- dépendances syntaxiques.
Les outils lexicométriques (ici Lexico3) ont permis de disposer de
concordances, de graphiques d'évolution, de repérage de sur-
et sous-emplois de telle partie par rapport au reste du corpus.
Les outils et les traitements vous ont-ils permis de vous orienter dans les
corpus ?
Les résultats des outils nous ont en effet relativement bien permis de nous orienter.
Avez-vous eu le sentiment de vous "noyer" ?
Nous nous sommes plutôt sentis submergés par la quantité d'information textuelle et graphique offerte à la consultation.
Pensez-vous qu'il faudrait
disposer d'autres outils (si oui, lesquels) ?
Nous aurions préféré disposer des outils eux-mêmes (lexico 3) et non seulement des résultats de ces outils. Nous aurions alors pu nous-mêmes en effectuer une évaluation.
Méthologies
Avez-vous le sentiment, à travers la formation que vous avez reçue
(linguistique en général, sémantique, lexicographie
et terminologie, etc.) de disposer des méthodologies
pour tirer profit de ce type de données ?
Réponse positive.
Si non, dans quels domaines souhaiteriez-vous recevoir une formation ?