Ajuster corpus et objectifs - 3e séance
Serge Fleury & Benoît Habert
Binôme/trinôme : noms, prénoms, appartenance (PIII, Inalco, PX) et
mails
Alexandra Sondermeijer (Inalco), Cyril Rassou (Inalco)
Le corpus LM10 et les dépendances syntaxiques
Prendre connaissance de la
présentation de ce corpus, de la signalétique associée et des
annotations disponibles (triplets correspondant à des dépendances
syntaxiques).
Principales informations extraites des dépendances syntaxiques
Que penser de la taille du corpus des documents comprenant un mot de la
famille "laïcité" (cf. paramètres lexicométriques du corpus) par rapport à celle
de LM10 ?
Il s'agit d'une proportion moindre sur l'ensemble de la base LM10.
Les grands mouvements sur 10 ans
Examiner le nombre de triplets et de
documents au fil des ans dans les informations sur les dépendances syntaxiques.
Repère-t-on des constantes et/ou des moments singuliers ?
De 1991 2000, le nombre moyen de triplets dans le journal Le Monde est d'environ 500.
Pourtant nous pouvons remarquer qu'en 1993, 1994, 1996 et 1997 leur nombre est plus lev
et surtout en 1994 pour laquelle le nombre de triplets s'lve 1055. Les chiffres
indiquant le nombre de triplets par document montre la mme chose. Ainsi si la moyenne est
d'environ 2 triplets par document, leur nombre est plus lev pour les annes 1993, 1994,
1996 et 1997. Cela signifie que de 1991 2000, la lacit fut davantage d'actualit
lors de ces quatre annes.
A travers les
graphiques d'évolution en fréquence relative de la famille 'laïcité', résumez
les grandes tendances de l'évolution quand on la considère :
- année après année ;
De 1991 1992, les mots de la famille de lacit ont connu une baisse
de 15 12 en ce qui concerne la frquence relative de leur emploi. A partir de 1992,
nous avons assist une hausse spectaculaire, si bien qu'un pic de 22 fut atteint en 1994. cependant
la dgringolade n'en fut que plus brutale de 1994 1995, descendant alors 15. De 1995 1996, nous pouvons
remarquer une nouvelle hausse 23. Puis, nous observons une chute continue de 1996 1998 pour se stabiliser
jusqu'en 1999, date partir de laquelle la frquence regagne du terrain.
- mois après mois.
l'emploi des mots de la famille de lacit atteint son pic(soit 40)entre les mois d'avril et de novembre
1996. Au cours du deuxime semestre 1997, nous constatons un second meilleur seuil.
En troisime position, nous rapporterons le chiffre de 33 pour fin 1993.
Comparez l'évolution suivant qu'on la
considère via les formes ou via les lemmes ? Y a-t-il des changements importants
?
En reprenant les données chronologiques accessibles via la page du
cours, pouvez-vous expliquer l'évolution constatée ?
La famille "laïcité" sur un an / sur 10 ans : approche globale
Comparez
les deux listes de mots.
Reprenez la liste pour 10 ans et colorez les formes
présentes en 2003-04.
Isoler dans la liste 91-00 :
- les formes qui correspondent à un processus ;
- les fomes qui renvoient à des abstractions (convictions, opinions) ;
- les formes péjoratives.
Pour 91-00, comparer la liste sur les
formes et la liste sur les lemmes. Indiquer les formes qui vous paraissent mal
lemmatisées. Quelles conclusions sur la qualité de la lemmatisation opérérée ?
Pensez-vous que les conséquences sont importantes pour la suite des traitements
?
Les contextes fondamentaux de laïcité
A partir des tableaux
donnant les verbes dont laïcité est SUJ ou OBJ avec une fréquence > 1
:
- faites une liste des catégories qui vous paraissent pertinentes pour
classer ces verbes (par exemple : définition correspondant à appeler, définir,
consister, signifier). Vous vous reporterez éventuellement aux concordances
fournies (triées à gauche pour OBJ et à droite pour SUJ). Faites correspondre
un code couleur à chaque catégorie.
- recopier les 2 tableaux et colorer les verbes selon leur catégorie.
- résumez les grandes tendances que vous observez.
Vous compléterez
cette étude des verbes auxquels laïcité est fortement associé par la
liste des syntagmes comprenant laïcité qui figurent en position 2 dans
les triplets Syntex.
Les contextes principaux de laïcité au fil du temps
Le tableau
sur laïcité en relation SUJ ou OBJ avec une fréquence > 1, au fil des
ans, vous permettra de souligner à la fois quelques constantes dans l'emploi du
mot et quelques changements ou points particuliers.
Les contextes principaux de laïc
Résumez les enseignements
principaux des tableaux sur laïc en position 1 ou 2 et avec une fréquence
>= 5 (ce plancher écrème déjà sérieusement les listes de triplets). Prenez
soin de recopier les triplets les plus pertinents.
Un mot péjoratif : laïcisme
Extrayez les contextes (triplets) qui
soulignent la valeur péjorative de ce mot (et des mots qui lui sont liés :
laïcard, etc.).
La laïcité : un processus
Les mots autour de laïciser renvoient
tous à un processus. On mettra à jour ce qui est l'agent ou le patient de ce
processus, dans un tableau de la forme :
agent
|
patient
|
triplet correspondant
|
|
|
|
|
|
|
Ajustements ?
Adéquation corpus / objectifs
Pour étudier "laïcité" dans les
dernières années, ont été rassemblés :
10 ans (1991-00) du journal
"généraliste" Le Monde ;
1 année entière du même journal ;
des
sources documentaires variées (chronologie, dossiers spécialisés).
Les
données constituées vous paraissent-elles permettre de donner une image adéquate
de la famille de "laïcité" :
à un moment donné (en 2003-04) ; Oui
sur une
période de durée moyenne (1991-00).Oui
A votre avis, faudrait-il ajouter
d'autres données textuelles et si oui, lesquelles ?
Non, notre avis les donnes textuelles fournies sont tout fait suffisantes.
Adéquation traitements / objectifs
Ont été mis à contribution pour
approche "laïcité" et sa famille plusieurs niveaux de représentation :
- "texte nu" ;
- texte lemmatisé ;
- dépendances syntaxiques.
Les outils lexicométriques (ici Lexico3)
ont permis de disposer de concordances, de graphiques d'évolution, de repérage
de sur- et sous-emplois de telle partie par rapport au reste du
corpus.
Les outils et les traitements vous ont-ils permis de vous
orienter dans les corpus ? Oui. Avez-vous eu le sentiment de vous "noyer" ? Nous avons en effet
t destabiliss par la longueur du devoir rendre.
Pensez-vous qu'il faudrait disposer d'autres outils (si oui, lesquels) ?
Méthologies
Avez-vous le sentiment, à travers la formation que vous avez
reçue (linguistique en général, sémantique, lexicographie et lexicographie,
terminologie, etc.) de disposer des méthodologies pour tirer profit de ce type
de données ? Etant donn que nous sommes en cours de formation, nous estimons que nous pourrons employer
plus aisment nos connaissances que nous aurons acquises la fin de l'anne.
Si non, dans quels domaines souhaiteriez-vous recevoir une
formation ?
Nous considrons qu'un travail pratique sur le traitement de corpus impliquant les procds
d'annotation et d'analyse syntaxique serait galement utile.