Ajuster corpus et objectifs - 3e séance
Serge Fleury & Benoît Habert
Binôme/trinôme : DELEUZE Blandine, LIM Lay-Chan, QUESNEL Rémi (INALCO)
blandine_deleuze@hotmail.com
lim_lay_chan@yahoo.fr
remiquesnel@hotmail.com
Retour au
cours
TD 2ème séance
Le corpus LM10 et les dépendances syntaxiques
Prendre connaissance de la
présentation de ce corpus, de la signalétique associée et des
annotations disponibles (triplets correspondant à des dépendances
syntaxiques).
Principales informations extraites des dépendances syntaxiques
Que penser de la taille du corpus des documents comprenant un mot de la
famille "laïcité" (cf. paramètres lexicométriques du corpus) par rapport à celle
de LM10 ?
d'apres les propos de M. Habert le pourcentage d'articles comportant des occurences des mots de
la famille de laïcité est de 1,5%. Ce qui représente un pourcentage conséquent.
Les grands mouvements sur 10 ans
Examiner le nombre de triplets et de
documents au fil des ans dans les informations sur les dépendances syntaxiques.
Repère-t-on des constantes et/ou des moments singuliers ?
A travers les
graphiques d'évolution en fréquence relative de la famille 'laïcité', résumez
les grandes tendances de l'évolution quand on la considère :
- année après année ;
On constate, des pics en 1994 et 1996; En octobre 1994, certains événements expliquent
ce premier pic : plusieurs affaires d'exclusion d'élèves d'établissements d'enseignement
public ont conduit le ministère de l'éducation nationale à publier une circulaire
sur le port du foulard.
Le creux de 1995 peut être expliqué par l'absence d'événements marquants concernant la
laïcité cette année là. En revanche, une circulaire du ministre de l'éducation M. Bayrou (94)
et une intervention télévisée (96) a déclenché des vagues de débat.
- mois après mois.
On constate également des pics réguliers au mois de septembre, période de rentrée
scolaire.
Comparez l'évolution suivant qu'on la
considère via les formes ou via les lemmes ? Y a-t-il des changements importants
?
On ne remarque pas de changements importants entre les deux courbes.
En reprenant les données chronologiques accessibles via la page du
cours, pouvez-vous expliquer l'évolution constatée ?
La famille "laïcité" sur un an / sur 10 ans : approche globale
Comparez
les deux listes de mots.
on peut remarquer que la liste des mots de la famille de laïcité sur 10 ans est
plus longue que celle sur un an.
Reprenez la liste pour 10 ans et colorez les formes
présentes en 2003-04.
FORME | Fréquence |
laïcité | 1616 |
laïque | 1678 |
laïques | 532 |
laïc | 363 |
laïcs | 573 |
laïcards | 14 |
laïcisation | 100 |
laïcisme | 41 |
laïcistes | 3 |
laïcat | 33 |
laïcisé | 26 |
laïcisée | 25 |
laïciser | 14 |
laïcisés | 9 |
laïcise | 5 |
antilaïques | 4 |
laïcisant | 4 |
laïcisateurs | 4 |
laïcisées | 4 |
laïcarde | 3 |
lèse-laïcité | 3 |
délaïcisation | 2 |
laïci | 2 |
laïcisa | 2 |
laïco-assimilationnistes | 2 |
beaujo-laïc | 1 |
catho-laïques | 1 |
islamo-laïcs | 1 |
laïcard | 1 |
laïcicité | 1 |
laïcisait | 1 |
laïcisante | 1 |
laïcisants | 1 |
laïcisations | 1 |
laïcïté | 1 |
laïco-assimilationniste | 1 |
laïco-communiste | 1 |
laïco-communistes | 1 |
laïquesde | 1 |
nationalo-laïque | 1 |
pro-laïques | 1 |
socialo-laïque | 1 |
ultralaïque | 1 |
Isoler dans la liste 91-00 :
- les formes qui correspondent à un processus ;
- les fomes qui renvoient à des abstractions (convictions, opinions) ;
- les formes péjoratives.
Pour 91-00, comparer la liste sur les
formes et la liste sur les lemmes. Indiquer les formes qui vous paraissent mal
lemmatisées. Quelles conclusions sur la qualité de la lemmatisation opérérée ?
Pensez-vous que les conséquences sont importantes pour la suite des traitements
?
Les formes mal lemmatisées : tous les pluriels
Retravailler sur la lemmatisation des pluriels.
Cela dépend du traitement qui sera fait en aval.
Les contextes fondamentaux de laïcité
A partir des tableaux
donnant les verbes dont laïcité est SUJ ou OBJ avec une fréquence > 1
:
+----------+--------------+-------------+
| Relation | Lemme 1 | Occurrences |
+----------+--------------+-------------+
| r_SUJ | obliger | 5 |
| r_SUJ | rester | 4 |
| r_SUJ | exister | 4 |
| r_SUJ | signifier | 4 |
| r_SUJ | redevenir | 3 |
| r_SUJ | imposer | 3 |
| r_SUJ | représenter | 3 |
| r_SUJ | se vouloir | 2 |
| r_SUJ | sembler | 2 |
| r_SUJ | offrir | 2 |
| r_SUJ | apparaître | 2 |
| r_SUJ | perdre | 2 |
| r_SUJ | emporter | 2 |
| r_SUJ | se confondre | 2 |
| r_SUJ | appartenir | 2 |
| r_SUJ | porter | 2 |
| r_SUJ | accepter | 2 |
| r_SUJ | respecter | 2 |
| r_SUJ | favoriser | 2 |
| r_OBJ | défendre | 20 |
| r_OBJ | menacer | 8 |
| r_OBJ | respecter | 6 |
| r_OBJ | accepter | 4 |
| r_OBJ | inventer | 4 |
| r_OBJ | maintenir | 4 |
| r_OBJ | ouvrir | 4 |
| r_OBJ | prêcher | 3 |
| r_OBJ | revendiquer | 3 |
| r_OBJ | ignorer | 3 |
| r_OBJ | réaffirmer | 3 |
| r_OBJ | instaurer | 3 |
| r_OBJ | vivre | 3 |
| r_OBJ | appliquer | 3 |
| r_OBJ | prôner | 3 |
| r_OBJ | ériger | 3 |
| r_OBJ | confondre | 3 |
| r_OBJ | protéger | 2 |
| r_OBJ | consister | 2 |
| r_OBJ | mettre | 2 |
| r_OBJ | exalter | 2 |
| r_OBJ | adopter | 2 |
| r_OBJ | évoquer | 2 |
| r_OBJ | définir | 2 |
| r_OBJ | représenter | 2 |
| r_OBJ | percevoir | 2 |
| r_OBJ | concerner | 2 |
| r_OBJ | considérer | 2 |
| r_OBJ | appeler | 2 |
| r_OBJ | confronter | 2 |
+----------+--------------+-------------+
- faites une liste des catégories qui vous paraissent pertinentes pour
classer ces verbes (par exemple : définition correspondant à appeler, définir,
consister, signifier). Vous vous reporterez éventuellement aux concordances
fournies (triées à gauche pour OBJ et à droite pour SUJ). Faites correspondre
un code couleur à chaque catégorie.
- recopier les 2 tableaux et colorer les verbes selon leur catégorie.
- résumez les grandes tendances que vous observez.
Vous compléterez
cette étude des verbes auxquels laïcité est fortement associé par la
liste des syntagmes comprenant laïcité qui figurent en position 2 dans
les triplets Syntex.
Les contextes principaux de laïcité au fil du temps
Le tableau
sur laïcité en relation SUJ ou OBJ avec une fréquence > 1, au fil des
ans, vous permettra de souligner à la fois quelques constantes dans l'emploi du
mot et quelques changements ou points particuliers.
Les contextes principaux de laïc
Résumez les enseignements
principaux des tableaux sur laïc en position 1 ou 2 et avec une fréquence
>= 5 (ce plancher écrème déjà sérieusement les listes de triplets). Prenez
soin de recopier les triplets les plus pertinents.
Un mot péjoratif : laïcisme
Extrayez les contextes (triplets) qui
soulignent la valeur péjorative de ce mot (et des mots qui lui sont liés :
laïcard, etc.).
La laïcité : un processus
Les mots autour de laïciser renvoient
tous à un processus. On mettra à jour ce qui est l'agent ou le patient de ce
processus, dans un tableau de la forme :
agent
|
patient
|
triplet correspondant
|
|
|
|
|
|
|
Ajustements ?
Adéquation corpus / objectifs
Pour étudier "laïcité" dans les
dernières années, ont été rassemblés :
10 ans (1991-00) du journal
"généraliste" Le Monde ;
1 année entière du même journal ;
des
sources documentaires variées (chronologie, dossiers spécialisés).
Les
données constituées vous paraissent-elles permettre de donner une image adéquate
de la famille de "laïcité" :
à un moment donné (en 2003-04) ;
sur une
période de durée moyenne (1991-00).
On obtient une bonne image des termes employés par les journalistes.
On a pu constater dans les graphes des périodes creuses, période pendant lesquelles
le vocabulaire est moins riche.
Lors des pics, on observe une multiplication de termes attestés ou non autour du mot
laïcité.
A votre avis, faudrait-il ajouter
d'autres données textuelles et si oui, lesquelles ?
Tout dépend des objectifs initiaux et de l'approfondissement atteint au terme du travail.
Adéquation traitements / objectifs
Ont été mis à contribution pour
approche "laïcité" et sa famille plusieurs niveaux de représentation :
- "texte nu" ;
- texte lemmatisé ;
- dépendances syntaxiques.
Les outils lexicométriques (ici Lexico3)
ont permis de disposer de concordances, de graphiques d'évolution, de repérage
de sur- et sous-emplois de telle partie par rapport au reste du
corpus.
Les outils et les traitements vous ont-ils permis de vous
orienter dans les corpus ? Avez-vous eu le sentiment de vous "noyer" ?
Pensez-vous qu'il faudrait disposer d'autres outils (si oui, lesquels) ?
les outils de traitement : pour nous situer dans le temps (graphes), dans le corpus
(cartes de section et concordance) sont des résultats qu'il faut apprendre à traiter.
Nous avons le sentiment d'avoir traité des résultats plutôt que manipulé des outils.
"overflow" : nous nous sommes noyés dans la masse d'informations fournies !!
autres outils : ...
Méthologies
Avez-vous le sentiment, à travers la formation que vous avez
reçue (linguistique en général, sémantique, lexicographie et lexicographie,
terminologie, etc.) de disposer des méthodologies pour tirer profit de ce type
de données ?
Si non, dans quels domaines souhaiteriez-vous recevoir une
formation ?
Pour ce travail nous avons disposé de résultats déjà prêts, que nous n'aurions
jamais eu l'idée d'aller chercher. C'est ce processus de questionnement qu'il aurait été
souhaitable de développer chez nous.