Ajuster corpus et objectifs - 3e séance
Serge Fleury & Benoît Habert
Binôme/trinôme :
DELEGER Louise, Inalco, louisedeleger@hotmail.com
KRIVINE Sonia, Inalco, sonia.krivine@free.fr
NGUYEN Sacha, Inalco, sacha_nguyen@yahoo.fr
Retour au cours
TD 2ème séance
Le corpus LM10 et les dépendances syntaxiques
Prendre connaissance de la présentation
de ce corpus, de la signalétique associée et des annotations
disponibles (triplets correspondant à des dépendances syntaxiques).
Principales informations
extraites des dépendances syntaxiques
Que penser de la taille du corpus des documents comprenant un mot de la famille
"laïcité" (cf. paramètres lexicométriques du corpus)
par rapport à celle de LM10 ?
Le corpus thématique représente environ 1.5% (3.3/200) du corpus général, ce qui est assez conséquent.
Les grands mouvements sur 10 ans
Examiner le nombre de triplets et de documents au fil des ans dans les informations
sur les dépendances syntaxiques. Repère-t-on des constantes
et/ou des moments singuliers ?
On observe une augmentation très nette du nombre de documents comme de triplets en 1994.
A travers les graphiques d'évolution en fréquence relative
de la famille 'laïcité', résumez les grandes tendances
de l'évolution quand on la considère :
- année après année: on observe deux pics très nets, en 1994 et 1996;
- mois après mois: on retrouve les deux pics précédents, soit l'hiver 1993/1994, l'automne 1996, mais aussi la fin de l'année 1997.
Comparez l'évolution suivant qu'on la considère via les formes
ou via les lemmes ? Y a-t-il des changements importants ? Non, en tout cas la variation observée sur les maxima est très faible (légère augmentation de fréquence relative lorsqu'on passe au corpus lemmatisé);
En reprenant les données chronologiques accessibles via la page du
cours, pouvez-vous expliquer l'évolution constatée ?
Les pics observés semblent correspondre:
- en 1994, aux affaires successives dites "du foulard" et à la "circulaire Bayrou";
- en 1996, à l'aboutissement de différents recours devant le Conseil d'Etat, concernant ces affaires du foulard;
La famille "laïcité" sur un an / sur 10 ans : approche globale
Comparez les deux listes de mots.
Reprenez la liste pour 10 ans et colorez les formes présentes en 2003-04.
laïque
|
|
|
|
laïcité |
|
|
|
laïcs |
|
|
|
laïques |
|
|
|
laïc |
|
|
|
laïcisation |
|
|
|
laïcisme |
|
|
|
laïcat |
|
|
|
laïcisée |
|
|
|
laïcards |
|
|
|
laïciserl |
|
|
|
laïcisés |
|
|
|
laïcise |
|
|
|
laïciste |
|
|
|
antilaïques |
|
|
|
Isoler dans la liste 91-00 :
- les formes qui correspondent à un processus ;
- les fomes qui renvoient à des abstractions (convictions, opinions)
;
- les formes péjoratives.
Pour 91-00, comparer la liste sur les formes et la liste sur les lemmes.
Indiquer les formes qui vous paraissent mal lemmatisées.
laïcards
laïcarde
laïci
laïco-assimilationnistes
catho-laïques
islamo-laïcs
laïcisante
laïcisants
laïco-communistes
pro-laïques
Quelles conclusions sur la qualité de la lemmatisation opérée?
=> elle n'est pas parfaite (environ une forme sur trois est mauvaise), et semble échouer surtout avec des termes qui doivent être inconnus du dictionnaire utilisé;
Pensez-vous que les conséquences sont importantes pour la suite des
traitements ?
=> Non, car à première vue tous les termes donnant lieu à une mauvaise lemmatisation (sauf peut-être pro-laïques?) sont de très faible fréquence.
Les contextes fondamentaux de laïcité
A partir des tableaux donnant les verbes dont laïcité
est SUJ ou OBJ avec une fréquence > 1 :
- faites une liste des catégories qui vous paraissent pertinentes
pour classer ces verbes (par exemple : définition correspondant à
appeler, définir, consister, signifier). Vous vous reporterez éventuellement
aux concordances fournies (triées à gauche pour OBJ et à
droite pour SUJ). Faites correspondre un code couleur à chaque
catégorie.
- recopier les 2 tableaux et colorer les verbes selon leur catégorie.
- résumez les grandes tendances que vous observez.
Vous compléterez cette étude des verbes auxquels laïcité
est fortement associé par la liste des syntagmes comprenant laïcité
qui figurent en position 2 dans les triplets Syntex.
Les contextes principaux de laïcité au fil du temps
Le tableau sur laïcité en relation SUJ ou OBJ avec une
fréquence > 1, au fil des ans, vous permettra de souligner à
la fois quelques constantes dans l'emploi du mot et quelques changements
ou points particuliers.
Les contextes principaux de laïc
Résumez les enseignements principaux des tableaux sur laïc
en position 1 ou 2 et avec une fréquence >= 5 (ce plancher écrème
déjà sérieusement les listes de triplets). Prenez soin
de recopier les triplets les plus pertinents.
Un mot péjoratif : laïcisme
Extrayez les contextes (triplets) qui soulignent la valeur péjorative
de ce mot (et des mots qui lui sont liés : laïcard, etc.).
La laïcité : un processus
Les mots autour de laïciser renvoient tous à un processus.
On mettra à jour ce qui est l'agent ou le patient de ce processus,
dans un tableau de la forme :
agent
|
patient
|
triplet correspondant
|
|
|
|
|
|
|
Ajustements ?
Adéquation corpus / objectifs
Pour étudier "laïcité" dans les dernières années,
ont été rassemblés :
10 ans (1991-00) du journal "généraliste" Le Monde ;
1 année entière du même journal ;
des sources documentaires variées (chronologie, dossiers spécialisés).
Les données constituées vous paraissent-elles permettre de
donner une image adéquate de la famille de "laïcité" :
à un moment donné (en 2003-04) ;
sur une période de durée moyenne (1991-00).
L'image semble plus adéquate pour une période "longue".
A votre avis, faudrait-il ajouter d'autres données textuelles et si
oui, lesquelles ?
non, cela nuirait à la cohérence du corpus.
Adéquation traitements / objectifs
Ont été mis à contribution pour approche "laïcité"
et sa famille plusieurs niveaux de représentation :
- "texte nu" ;
- texte lemmatisé ;
- dépendances syntaxiques.
Les outils lexicométriques (ici Lexico3) ont permis de disposer de
concordances, de graphiques d'évolution, de repérage de sur-
et sous-emplois de telle partie par rapport au reste du corpus.
Les outils et les traitements vous ont-ils permis de vous orienter dans les
corpus ? Avez-vous eu le sentiment de vous "noyer" ? Pensez-vous qu'il faudrait
disposer d'autres outils (si oui, lesquels) ?
Oui, les outils sont une aide efficace, cependant on a l'impression d'être un peu noyés par l'abondance des informations à traiter.
Méthologies
Avez-vous le sentiment, à travers la formation que vous avez reçue
(linguistique en général, sémantique, lexicographie
et lexicographie, terminologie, etc.) de disposer des méthodologies
pour tirer profit de ce type de données ?
Non, pas réellement, on manque du recul nécessaire, et du temps pour assimiler les données, la progression est un peu rapide.
Si non, dans quels domaines souhaiteriez-vous recevoir une formation ?