Ajuster corpus et objectifs - 3e séance
Serge Fleury & Benoît Habert
Binôme/trinôme : noms, prénoms, appartenance (PIII, Inalco, PX) et
mails
Retour au
cours
TD 2ème séance
Marie-Véronique LEROI, Inalco
Frédérique BENARD, ILPGA
Oscar GARCIA, ILPGA
Le corpus LM10 et les dépendances syntaxiques
Prendre connaissance de la
présentation de ce corpus, de la signalétique associée et des
annotations disponibles (triplets correspondant à des dépendances
syntaxiques).
Principales informations extraites des dépendances syntaxiques
Que penser de la taille du corpus des documents comprenant un mot de la
famille "laïcité" (cf. paramètres lexicométriques du corpus) par rapport à celle
de LM10 ?
Le corpus est d'une taille importante étant donné qu'il recouvre une période de 10 ans (1991 à 2000): les données présentées
sont à considérer en diachronie. Le corpus était ciblé sur une période en synchronie (2003 à 2004). Ce corpus
présente des informations sur les dépendances syntaxiques (triplets) et les paramètres lexicométriques
portent sur ces informations.
Les grands mouvements sur 10 ans
Examiner le nombre de triplets et de
documents au fil des ans dans les informations sur les dépendances syntaxiques.
Repère-t-on des constantes et/ou des moments singuliers ?
Il est possible de noter que pour la période de 1993 à 1998, le nombre de triplets par documents est assez important
(environ 2,11 et 2,60). En 1994, le nombre de triplets est le plus élevé (1055) et il en est de même pour
le nombre de documents (411): le nombre de triplets par documents est par conséquent également élevé (2,57).
De plus, l'année 1996 présente un nombre de triplets par documents égal à 2,60 qui est donc le plus élevé malgré un
nombre de triplets et de documents moins important qu'en 1994. Nous observons cependant une chute dans cette
progression en 1995, le nombre de triplets par documents étant égal à 2,11, le taux le plus faible pour cette
période.
A travers les
graphiques d'évolution en fréquence relative de la famille 'laïcité', résumez
les grandes tendances de l'évolution quand on la considère :
- année après année ;
Les graphiques de ventilation en valeurs relatives de fréquences des mots de la famille "laïcité"
confirment les remarques fournies précédemment.
- mois après mois.
Deux sommets sont observables: en décembre 1993, et novembre 1996. Nous observons aussi une régularité
dans les périodes creuses qui correspondent environ à Juillet - Août de chaque année, période de vacances
scolaires.
D'où l'intérêt d'étudier ces graphiques années aprés années, et mois après mois. En effet, l'étude
de ces graphiques années après années n'indique pas une périodicité dans la faible fréquence des
mots de la famille laïcité. Autrement dit, si nous voulons faire une étude sur la fréquence des mots
de la famille laïcité, nous avons plutôt intérêt à prendre une période en dehors des vacances scolaires,
pour une étude plus pertinente.
Comparez l'évolution suivant qu'on la
considère via les formes ou via les lemmes ? Y a-t-il des changements importants
?
En reprenant les données chronologiques accessibles via la page du
cours, pouvez-vous expliquer l'évolution constatée ?
L'image ci-dessous présente la correspondance entre lemmes (à gauche sur l'image) et formes (à droite)
avec des couleurs aux différents lemmes.
Il apparaît donc que nous retrouvons logiquement plus de formes que de lemmes. Les lemmes comprenant
des formes différentes sont "laïque", "laïciser", laïc".
La famille "laïcité" sur un an / sur 10 ans : approche globale
Comparez
les deux listes de mots.
Reprenez la liste pour 10 ans et colorez les formes
présentes en 2003-04.
Isoler dans la liste 91-00 :
- les formes qui correspondent à un processus ;
- les fomes qui renvoient à des abstractions (convictions, opinions) ;
- les formes péjoratives.
Pour 91-00, comparer la liste sur les
formes et la liste sur les lemmes. Indiquer les formes qui vous paraissent mal
lemmatisées. Quelles conclusions sur la qualité de la lemmatisation opérérée ?
Pensez-vous que les conséquences sont importantes pour la suite des traitements
?
Les contextes fondamentaux de laïcité
A partir des tableaux
donnant les verbes dont laïcité est SUJ ou OBJ avec une fréquence > 1
:
- faites une liste des catégories qui vous paraissent pertinentes pour
classer ces verbes (par exemple : définition correspondant à appeler, définir,
consister, signifier). Vous vous reporterez éventuellement aux concordances
fournies (triées à gauche pour OBJ et à droite pour SUJ). Faites correspondre
un code couleur à chaque catégorie.
- recopier les 2 tableaux et colorer les verbes selon leur catégorie.
- résumez les grandes tendances que vous observez.
Vous compléterez
cette étude des verbes auxquels laïcité est fortement associé par la
liste des syntagmes comprenant laïcité qui figurent en position 2 dans
les triplets Syntex.
Les contextes principaux de laïcité au fil du temps
Le tableau
sur laïcité en relation SUJ ou OBJ avec une fréquence > 1, au fil des
ans, vous permettra de souligner à la fois quelques constantes dans l'emploi du
mot et quelques changements ou points particuliers.
Les contextes principaux de laïc
Résumez les enseignements
principaux des tableaux sur laïc en position 1 ou 2 et avec une fréquence
>= 5 (ce plancher écrème déjà sérieusement les listes de triplets). Prenez
soin de recopier les triplets les plus pertinents.
Un mot péjoratif : laïcisme
Extrayez les contextes (triplets) qui
soulignent la valeur péjorative de ce mot (et des mots qui lui sont liés :
laïcard, etc.).
La laïcité : un processus
Les mots autour de laïciser renvoient
tous à un processus. On mettra à jour ce qui est l'agent ou le patient de ce
processus, dans un tableau de la forme :
agent
|
patient
|
triplet correspondant
|
|
|
|
|
|
|
Ajustements ?
Adéquation corpus / objectifs
Pour étudier "laïcité" dans les
dernières années, ont été rassemblés :
10 ans (1991-00) du journal
"généraliste" Le Monde ;
1 année entière du même journal ;
des
sources documentaires variées (chronologie, dossiers spécialisés).
Les
données constituées vous paraissent-elles permettre de donner une image adéquate
de la famille de "laïcité" :
à un moment donné (en 2003-04) ;
sur une
période de durée moyenne (1991-00).
L'étude de la période 1991-2000 permet de cerner une évolution progressive de la fréquence du mot "laïcité".
La période de 2003-2004, avec la chute de la fréquence des mots de la famille de laïcité,
nous montre que la notion de "laïcité" prend un nouveau sens, celui d'ostentatoire.
Autrement dit, une étude future sur la notion de "laïcité" permettra de voir l'évolution de termes associés
à la notion d'"ostentatoire" plutôt que "laïcité" à proprement parler.
Les données fournies nous paraissent adéquates, cependant la mise à disposition de ces abondantes
données ne nous permet pas d'avoir un regard plus approfondi sur la pertinence de ces données.
Leur mise en parallèle pourrait faciliter cete tâche. Par ailleurs, la correspondance entre les données et
l'actualité par alignement aurait pu permettre une meilleure approche.
A votre avis, faudrait-il ajouter
d'autres données textuelles et si oui, lesquelles ?
Nous pensons qu'il y a assez de documents à disposition, mais qu'il est difficile de les exploiter correctement.
Des données supplémentaires ne nous semblent pas nécessaires, mais un document qui coordinerait l'ensemble de ces données
pourrait être plus judicieux.
Adéquation traitements / objectifs
Ont été mis à contribution pour
approche "laïcité" et sa famille plusieurs niveaux de représentation :
- "texte nu" ;
- texte lemmatisé ;
- dépendances syntaxiques.
Les outils lexicométriques (ici Lexico3)
ont permis de disposer de concordances, de graphiques d'évolution, de repérage
de sur- et sous-emplois de telle partie par rapport au reste du
corpus.
Les outils et les traitements vous ont-ils permis de vous
orienter dans les corpus ? Avez-vous eu le sentiment de vous "noyer" ?
Pensez-vous qu'il faudrait disposer d'autres outils (si oui, lesquels) ?
Les outils lexicométriques nous ont permis de repérer dans le temps l'évolution des mots liés à la famille
de laïcité, mais pas de développer un point de vue global sur l'évolution de la laïcité au cours des
dernières années.
Nous nous sommes effectivement senti un peu noyés par la quantité de graphes et de données, une mise en
relation avec les évènements historiques nous auraient permis de mieux cerner l'explication de ces évolutions.
En ce qui concerne l'utilisation d'autres outils, nous pensons que oui, mais comme nous ne connaissons
pas les autres outils qui sont à disposition sur le marché, il nous est difficile de vous préciser lesquels.
Méthologies
Avez-vous le sentiment, à travers la formation que vous avez
reçue (linguistique en général, sémantique, lexicographie et lexicographie,
terminologie, etc.) de disposer des méthodologies pour tirer profit de ce type
de données ?
Si non, dans quels domaines souhaiteriez-vous recevoir une
formation ?
Nous avons le sentiment de ne pas avoir assez mis à profit les compétences relatives à notre formation
linguistique. Les connaissances du contexte politique et social de la France au cours des 15 dernières années
étaient les connaissances à avoir. Une formation pour interpréter des données d'ordre statistique nous auraient été
davantage utiles.