Ajuster corpus et objectifs - 3e séance

Serge Fleury & Benoît Habert


Binôme/trinôme : noms, prénoms, appartenance (PIII, Inalco, PX) et mails


Le corpus LM10 et les dépendances syntaxiques


Prendre connaissance de la présentation de ce corpus, de la signalétique associée et des annotations disponibles (triplets correspondant à des dépendances syntaxiques).
Principales informations extraites des dépendances syntaxiques

Que penser de la taille du corpus des documents comprenant un mot de la famille "laïcité" (cf. paramètres lexicométriques du corpus) par rapport à celle de LM10 ?

=> corpus total : totalise environ 200 millions de mots (à titre d'ordre de grandeur, rappelons qu'un roman de taille moyenne comprend de l'ordre de 100 000 mots. LM10 correspond à quelque 2 000 romans).

=> corpus laïcité : comprend 2 837 articles, soit au total de l'ordre de 3 300 000 mots (extraction de la chaîne 'laï[qc]').

On peut s'étonner qu'il y ait autant de mots concernant la laïcité par rapport au corpus total : environ 1.5%.


Les grands mouvements sur 10 ans

Examiner le nombre de triplets et de documents au fil des ans dans les informations sur les dépendances syntaxiques. Repère-t-on des constantes et/ou des moments singuliers ?

On peut voir qu'en 1994 le nombre de triplets (1055) et de documents (411) est assez important (double des autres années). On peut noter une certaine constance pour les autres années(environ 250 documents et 500 triplets), avec une augmentation pour 1996 et 1997.

A travers les graphiques d'évolution en fréquence relative de la famille 'laïcité', résumez les grandes tendances de l'évolution quand on la considère :

Comparez l'évolution suivant qu'on la considère via les formes ou via les lemmes ? Y a-t-il des changements importants ?

En reprenant les données chronologiques accessibles via la page du cours, pouvez-vous expliquer l'évolution constatée ?

La famille "laïcité" sur un an / sur 10 ans : approche globale

Comparez les deux listes de mots.
Reprenez la liste pour 10 ans et colorez les formes présentes en 2003-04.
Isoler dans la liste 91-00 :

Pour 91-00, comparer la liste sur les formes et la liste sur les lemmes. Indiquer les formes qui vous paraissent mal lemmatisées. Quelles conclusions sur la qualité de la lemmatisation opérérée ?

Il reste des formes au féminin et au pluriel, qui marquent la mauvaise lemmatisation du corpus.
Pensez-vous que les conséquences sont importantes pour la suite des traitements ?

Le problème que pose cette mauvaise lemmatisation est que l'extraction de termes ne sera pas complète et donc pas correcte (oublis de termes).

Les contextes fondamentaux de laïcité

A partir des tableaux donnant les verbes dont laïcité est SUJ ou OBJ avec une fréquence > 1 :
  1. faites une liste des catégories qui vous paraissent pertinentes pour classer ces verbes (par exemple : définition correspondant à appeler, définir, consister, signifier). Vous vous reporterez éventuellement aux concordances fournies (triées à gauche pour OBJ et à droite pour SUJ). Faites correspondre un code couleur  à chaque catégorie.


  2. Catégories relation sujetCatégories relation objet
    thèmetermestermes
    définitionsignifier
    représenter
    appartenir
    définir
    considérer
    appeler
    évoquer
    représenter
    concerner
    consister
    applicationexister
    redevenir
    rester
    emporter
    porter
    appliquer
    vivre
    instaurer
    ériger
    adopter
    mettre
    représenter
    inventer
    maintenir
    percevoir
    termes postitifsaccepter
    favoriser
    offrir
    respecter
    défendre
    respecter
    revendiquer
    prêcher
    réaffirmer
    exalter
    adopter
    protéger
    termes négatifsobliger
    imposer
    se vouloir
    perdre
    se confondre
    menacer
    ignorer
    confronter
    confondre
    perceptionsembler
    apparaître
    représenter
    vivre
    percevoir
    considérer
    définir
    représenter

  3. recopier les 2 tableaux et colorer les verbes selon leur catégorie.
  4. résumez les grandes tendances que vous observez.


La catégorie de perception montre que le terme de laïcité est sujet à discussion, les termes positifs et négatifs montrent que cette discussion est fortement polémique. Vous compléterez cette étude des verbes auxquels laïcité est fortement associé par la liste des syntagmes comprenant laïcité qui figurent en position 2 dans les triplets Syntex.

Les contextes principaux de laïcité au fil du temps


Le tableau sur laïcité en relation SUJ ou OBJ avec une fréquence > 1, au fil des ans, vous permettra de souligner à la fois quelques constantes dans l'emploi du mot et quelques changements ou points particuliers.

Les contextes principaux de laïc

Résumez les enseignements principaux des tableaux sur laïc en position 1 ou 2 et avec une fréquence >= 5 (ce plancher écrème déjà sérieusement les listes de triplets). Prenez soin de recopier les triplets les plus pertinents.
| laïc | r_EPI | catholique
état | r_EPI | laïc | 45 |
| parti | r_EPI | laïc | 21 |
| intellectuel | r_EPI | laïc | 12 |
| mouvement | r_EPI | laïc | 11 |
| rôle | r_EPI | laïc | 11

Ces triplets sont les plus pertinents, et ils sont liés aux différents sens du mot laïc (religion, politique).

Un mot péjoratif : laïcisme

Extrayez les contextes (triplets) qui soulignent la valeur péjorative de ce mot (et des mots qui lui sont liés : laïcard, etc.).

La laïcité : un processus

Les mots autour de laïciser renvoient tous à un processus. On mettra à jour ce qui est l'agent ou le patient de ce processus, dans un tableau de la forme :

agent
patient
triplet correspondant









Ajustements ?


Adéquation corpus / objectifs


Pour étudier "laïcité" dans les dernières années, ont été rassemblés :
10 ans (1991-00) du journal "généraliste" Le Monde ;
1 année entière du même journal ;
des sources documentaires variées (chronologie, dossiers spécialisés).

Les données constituées vous paraissent-elles permettre de donner une image adéquate de la famille de "laïcité" :
à un moment donné (en 2003-04) ;
sur une période de durée moyenne (1991-00).

A votre avis, faudrait-il ajouter d'autres données textuelles et si oui, lesquelles ?

Le problème de ce corpus est qu'il ne nous donne qu'un seul point de vue : celui du Monde.
Il serait tout à fait pertinent de pouvoir se servir d'articles d'autres journaux (autres tendances politiques) : le type de vocabulaire est-il le même (extraction de patrons différents) ? Parle-t-on de ce sujet aux mêmes périodes et autant ?
.
Il serait aussi intéressant d'avoir des données plus "populaires", comme des résultats de questionnaires faits sur le web, ou des avis spontanés.

Adéquation traitements / objectifs

Ont été mis à contribution pour approche "laïcité" et sa famille plusieurs niveaux de représentation :
Les outils lexicométriques (ici Lexico3) ont permis de disposer de concordances, de graphiques d'évolution, de repérage de sur- et sous-emplois de telle partie par rapport au reste du corpus.

Les outils et les traitements vous ont-ils permis de vous orienter dans les corpus ? Avez-vous eu le sentiment de vous "noyer" ? Pensez-vous qu'il faudrait disposer d'autres outils (si oui, lesquels) ?

De premier abord, il y a beaucoup trop de données pour qu'on puisse s'y retrouver facilement et pour ne pas être un peu découragé par la page "à rallonge". Pas de grande clarté ni de structuration adéquate.

Les graphiques ne sont pas très clairs non plus, notamment ceux avec le mois comme unité.

Méthologies

Avez-vous le sentiment, à travers la formation que vous avez reçue (linguistique en général, sémantique, lexicographie et lexicographie, terminologie, etc.) de disposer des méthodologies pour tirer profit de ce type de données ?

Nos formations diverses en science du langage nous ont suffi.
Le fait de travailler en groupe a accentué la diversité des compétences.


Si non, dans quels domaines souhaiteriez-vous recevoir une formation ?

Une formation au langage HTML ne serait pas inutile.