Retour au
cours
TD
2ème séance
Prendre connaissance de la présentation
de ce corpus, de la signalétique associée et des annotations disponibles
(triplets correspondant à des dépendances syntaxiques).
Principales
informations extraites des dépendances syntaxiques
Que penser de la taille du corpus des documents comprenant un mot de la famille
"laïcité" (cf. paramètres lexicométriques du corpus) par rapport à
celle de LM10 ?
Taille du corpus LM10 : 200 000 000 mots
Taille du corpus « laïcité » : 3 300 000
mots
Donc le corpus « laïcité » représente 1,5%
du corpus LM10 (i.e., 3 300 000 / 200 000 000), ce qui est un nombre important.
Examiner le nombre de triplets et de documents au fil des ans dans les informations sur les dépendances syntaxiques. Repère-t-on des constantes et/ou des moments singuliers ?
On
peut classer les années en deux groupes selon le nombre de triplets : «environ 550 »
et environ « 750 ». L’année
94, avec 1055 triplets au total et 411 documents représente un moment
singulier.
Pour
le nombre de documents, on distingue trois tendances « 250 » (les
années 91, 92, 98, 99, 00), « 300 » (les années 93, 95, 96, 97) et « 400 »
(l’année 94).
A travers les graphiques d'évolution en fréquence relative de la famille 'laïcité', résumez les grandes
tendances de l'évolution quand on
la considère :
la courbe de l’ évolution de la fréquence relative des mots de la famille laïcité présente deux pics, qui coïncident avec les années 94 et 96. Il est à noter que l’année 94 correspond au moment singulier repéré ci-dessus.
Les deux pics qui apparaissaient en 94 et en 96 sur la courbe de fréquence année par année sont reflétés sur la courbe mois par mois. En outre, on constate la présence d’un pic dans les derniers mois de l’année 97, qui ne correspondait pas à un pic dans la courbe année par année. En effet, ce pic est compensé par des valeurs basses de la fréquence relative pour la même année. Le graphique année par année, qui tient compte seulement de la moyenne annuelle, efface donc ce pic.
Comparez l'évolution suivant qu'on la considère via les formes ou via les
lemmes ? Y a-t-il des changements importants ?
En reprenant les données chronologiques accessibles via la page du cours,
pouvez-vous expliquer l'évolution constatée ?
Comparez les deux
listes de mots.
Reprenez la liste pour 10 ans et colorez les formes présentes en 2003-04.
Isoler dans la liste 91-00 :
Pour 91-00, comparer la liste sur les formes et la liste sur les lemmes.
Indiquer les formes qui vous paraissent mal lemmatisées. Quelles conclusions
sur la qualité de la lemmatisation opérérée ? Pensez-vous que les conséquences
sont importantes pour la suite des traitements ?
A partir des tableaux donnant les verbes dont laïcité est SUJ ou OBJ avec une fréquence > 1 :
Vous compléterez cette étude des verbes auxquels laïcité est fortement associé par la liste des syntagmes comprenant laïcité qui figurent en position 2 dans les triplets Syntex.
Le tableau sur laïcité en relation SUJ ou OBJ avec une fréquence > 1, au fil des ans, vous permettra de souligner à la fois quelques constantes dans l'emploi du mot et quelques changements ou points particuliers.
Défendre
défendre
respecter
maintenir
protéger
confronter
menacer
Acte de
parole
Prêcher
Revendiquer
réaffirmer
prôner
évoquer
définir
mettre en
pratique
appliquer
vivre
instaurer
ériger
adopter
cognition
inventer
ignorer
confondre
percevoir
considérer
autres
concerner
exalter
appeler
accepter
mettre
représenter
consister
Résumez les enseignements principaux des tableaux sur laïc en position 1 ou 2 et avec une fréquence >= 5 (ce plancher écrème déjà sérieusement les listes de triplets). Prenez soin de recopier les triplets les plus pertinents.
Extrayez les contextes (triplets) qui soulignent la valeur péjorative de ce mot (et des mots qui lui sont liés : laïcard, etc.).
Les mots autour de laïciser renvoient tous à un processus. On mettra à jour ce qui est l'agent ou le patient de ce processus, dans un tableau de la forme :
agent |
patient |
triplet correspondant |
|
|
|
|
|
|
Pour étudier "laïcité" dans les dernières années, ont été rassemblés
:
10 ans (1991-00) du journal "généraliste" Le Monde ;
1 année entière du même journal ;
des sources documentaires variées (chronologie, dossiers spécialisés).
Les données constituées vous paraissent-elles permettre de donner une image
adéquate de la famille de "laïcité" :
à un moment donné (en 2003-04) ;
sur une période de durée moyenne (1991-00).
A votre avis, faudrait-il ajouter d'autres données textuelles
et si oui, lesquelles ?
Peut-être une meilleure précision pour les graphiques
mois par mois (i.e., que chaque mois soit repéré)
Ont été mis à contribution pour approche "laïcité" et sa famille plusieurs niveaux de représentation :
Les outils
lexicométriques (ici Lexico3) ont permis de disposer de concordances, de
graphiques d'évolution, de repérage de sur- et sous-emplois de telle partie par
rapport au reste du corpus.
Les outils et les traitements vous ont-ils permis de vous orienter dans les
corpus ? Avez-vous eu le sentiment de vous "noyer" ? Pensez-vous
qu'il faudrait disposer d'autres outils
(si oui, lesquels) ?
Il aurait été plus profitable que les concordances sur lesquelles nous nous sommes basés pour réaliser les constellations soient lemmatisées.
Avez-vous le sentiment, à travers la formation que vous avez
reçue (linguistique en général, sémantique, lexicographie et lexicographie,
terminologie, etc.) de disposer des méthodologies pour tirer profit de ce type
de données ?
Si non, dans quels domaines souhaiteriez-vous recevoir une formation ?
Non, peut-être une formation sur la statistique
textuelle et la terminologie.