Retour au
cours
TD 2ème séance
Prendre connaissance de la présentation de ce corpus, de la signalétique associée et
des annotations disponibles (triplets correspondant à des dépendances
syntaxiques).
Principales informations extraites des dépendances syntaxiques
Que penser de la taille du corpus des documents comprenant un mot de la famille
"laïcité" (cf. paramètres lexicométriques du corpus) par rapport à
celle de LM10 ?
Le corpus représente 1.5% du
total, il semble assez étonnant qu’autant d’articles parlent d’une manière ou d’une
autre de la laïcité.
Examiner
le nombre de triplets et de documents au fil des ans dans les informations sur
les dépendances syntaxiques. Repère-t-on des constantes et/ou des moments singuliers
?
On peut repérer des
constantes, notamment une forte apparition des triplets par document entre les
années 1993 à 1998, et une baisse importante (>2 triplets par document) à
partir de 1999.
On remarque des moments
singuliers tels que 1994 et 1996. Ces deux années contiennent plus de triplets
que ceux des autres années, mais aussi la plus grande proportion de triplets par
document. A l’inverse, on remarque une chute ponctuelle en 1992 (1.96).
A travers les graphiques d'évolution en fréquence relative de la famille
'laïcité', résumez les grandes tendances de l'évolution quand on la considère :
Au premier regard
du graphique, on remarque, d’un point de vue global, une évolution positive faisant
passer la fréquence relative de 160 000 à 180 000 en 10 ans. L’évolution année
après année semble approximativement la même que celle observée précédemment, excepté
la chute en 1995 plus flagrante sur le graphique.
Les graphiques
mois après mois montrent que chaque année, on a deux mois « creux »
(juillet et août) alors qu’il existe quelques pics dans le premier trimestre
scolaire (en général, septembre et octobre). Cela permet de se rendre compte
que chaque étude nous apporte des informations différentes et pertinentes par rapport
au débat sur la laïcité : on passe d’une approche globale avec les graphes
d’année par année puis on voit plus précisément comment tournent les thèmes
journalistiques.
Comparez l'évolution suivant qu'on la considère via les formes ou via les
lemmes ? Y a-t-il des changements importants ?
En reprenant les données chronologiques accessibles via la page du cours,
pouvez-vous expliquer l'évolution constatée ?
Comparez
les deux listes de mots.
Reprenez la liste pour 10 ans et colorez en rouge
les formes présentes en 2003-04.
laïque
laïcité
laïcs
laïques
laïc
laïcisation
laïcisme
laïcat
laïcisé
laïcisée
laïcards
laïciser
laïcisés
laïcise
laïciste
laïcisant
laïcisateurs
laïcisées
laïcarde
laïcistes
lèse-laïcité
délaïcisation
laïci
laïcisa
laïco-assimilationnistes
beaujo-laïc
catho-laïques
islamo-laïcs
laïcard
laïcicité
laïcisait
laïcisante
laïcisants
laïcisations
laïcïté
laïco-assimilationniste
laïco-communiste
laïco-communistes
laïquesde
nationalo-laïque
pro-laïques
socialo-laïque
Isoler dans la liste 91-00 :
Pour 91-00, comparer la liste sur les formes et la liste sur les lemmes.
Indiquer les formes qui vous paraissent mal lemmatisées. Quelles conclusions
sur la qualité de la lemmatisation opérée ? Pensez-vous que les conséquences
sont importantes pour la suite des traitements ?
A
partir des tableaux donnant les verbes dont laïcité est SUJ ou OBJ avec
une fréquence > 1 :
1.
faites
une liste des catégories qui vous paraissent pertinentes pour classer ces
verbes (par exemple : définition correspondant à appeler, définir, consister,
signifier). Vous vous reporterez éventuellement aux concordances fournies
(triées à gauche pour OBJ et à droite pour SUJ). Faites correspondre un code
couleur à chaque catégorie.
2.
recopier
les 2 tableaux et colorer les verbes selon leur catégorie.
3.
résumez
les grandes tendances que vous observez.
Vous
compléterez cette étude des verbes auxquels laïcité est fortement
associé par la liste des syntagmes comprenant laïcité qui figurent en
position 2 dans les triplets Syntex.
Le
tableau sur laïcité en relation SUJ ou OBJ avec une fréquence > 1, au
fil des ans, vous permettra de souligner à la fois quelques constantes dans
l'emploi du mot et quelques changements ou points particuliers.
Résumez
les enseignements principaux des tableaux sur laïc en position 1 ou 2 et
avec une fréquence >= 5 (ce plancher écrème déjà sérieusement les listes de
triplets). Prenez soin de recopier les triplets les plus pertinents.
Extrayez
les contextes (triplets) qui soulignent la valeur péjorative de ce mot (et des
mots qui lui sont liés : laïcard, etc.).
Les mots autour de laïciser renvoient tous à
un processus. On mettra à jour ce qui est l'agent ou le patient de ce
processus, dans un tableau de la forme :
agent |
patient |
triplet
correspondant |
|
|
|
|
|
|
Pour étudier "laïcité" dans les dernières années, ont été rassemblés
:
10 ans (1991-00) du journal "généraliste" Le Monde ;
1 année entière du même journal ;
des sources documentaires variées (chronologie, dossiers spécialisés).
Les données constituées vous paraissent-elles permettre de donner une image
adéquate de la famille de "laïcité" :
à un moment donné (en 2003-04) : oui ;
sur une période de durée moyenne (1991-00) : oui.
Nous disposons en effet de données très diverses qui
permettent des observations sous différents angles de vues. Ceci est très
intéressant. Cependant, il y a risque de « crouler » sous les
informations...
A votre avis, faudrait-il ajouter d'autres données textuelles et si oui,
lesquelles ?
On pourrait imaginer d’ajouter des
données issues d’autres journaux (par exemple de courants politiques différents).
Le journal Le Monde n’est représentatif que d’une partie de la population
française : les lecteurs de ce journal.
Ont
été mis à contribution pour approche "laïcité" et sa famille
plusieurs niveaux de représentation :
Les
outils lexicométriques (ici Lexico3) ont permis de disposer de concordances, de
graphiques d'évolution, de repérage de sur- et sous-emplois de telle partie par
rapport au reste du corpus.
Les outils et les traitements vous ont-ils permis de vous orienter dans les
corpus ? Avez-vous eu le sentiment de vous "noyer" ? Pensez-vous
qu'il faudrait disposer d'autres outils (si oui, lesquels) ?
La « noyade » est un risque pour les personnes découvrant
le logiciel Lexico3 et les traitements qu’il permet. Pour nous la connaissance
de ce logiciel a été un plus. La diversité des représentations (tableaux,
graphiques,...) donne des perspectives différentes et complémentaires.
Avec plus de temps, on aurait pu traiter le corpus comme une base
de données.
Avez-vous le sentiment, à travers la formation que
vous avez reçue (linguistique en général, sémantique, lexicographie et
lexicographie, terminologie, etc.) de disposer des méthodologies pour tirer
profit de ce type de données ?
Oui, grâce à notre formation en
morphologie, sémantique [...], mais surtout le fait de pouvoir lors de nos
cours en informatique, s ‘adapter à différents résultats provenant de
différents outils.
Si non, dans quels domaines souhaiteriez-vous recevoir une formation ?
A 1ère vue : langage HTML, Stats.