Projet Plurital

Une des finalités de ce projet est de pouvoir comparer le comportement de certaines structures morphosyntaxiques selon les différentes rubriques choisies. Le patron que nous avons déterminé est " DETDPIG ADJ NCM " ce qui lexicalisé produit par exemple "des belles chaussettes" | "des bonnes tartes" | "les sombres chapeaux". Ce syntagme adjectival est un descripteur linguistique que nous supposons discriminant. Effectivement, "des" est un article déterminant partitif, ainsi dans le 'standard' du français des syntagmes pluriels doivent conserver la forme au singulier : "de belles chaussettes", "de bonnes tartes". En revanche cet écart est courant en usage. Nous supposons donc pouvoir trouver le motif dans le corpus <2016>. Cependant sa présence ou bien son absence nous permettrait d'identifier une variation linguistique.

De fait, il existe dans l'imaginaire commun un lien implicite entre la norme et l'écrit, la variation et l'oral. Ainsi, c'est à l'écrit qu'interviendrait la standardisation et à l'oral la variation. Or notre corpus est de style "journalistique", il devrait donc être en français "standard" c'est à dire normé. Nous supposons également que le motif retournera de nombreuses formes correctes. Ainsi, grâce aux graphes de co-occurrents nous espérons trouver des invariants dans la variation ce qui nous permettrait d'identifier le contexte dans lequel apparaît cet écart.

Ainsi nous avons plusieurs éléments à confirmer/infirmer :

Nous trouverons des syntagmes adjectival dans le corpus <2016>
Les graphes nous permettront de repérer un motif indiquant une substantification qui nécessiterait un partitif
Selon les rubriques la fréquence relative des motifs sera +/- grande (selon la norme linguistique implicite dans chaque domaine)
Selon les résultats par rubriques nous pourrions peut être caractériser un texte comme non-standard

Nous essayerons également de :

Comparer les résultats entre différentes rubriques
Comparer les résultats de patrons extraits sur une même rubrique selon l'outil utilisé
Emettre un avis critique sur les différents étiquetages (Tree Tagger / Cordial)
Faire des requêtes sur les lemmes et non sur les termes lexicalisés afin de réduire les erreurs dues à l'étiquetage

La comparaison entre les différentes rubriques nous incite à émettre une dernière hypothèse sur la proportion d'écrit et d'oral. Il est important de prendre en compte les modalités de nos extractions puisqu'elles ne concernent que les titres et les résumés de tous les articles. En d'autres termes, les entretiens avec des artistes, hommes politiques etc... ne seront pas présents dans notre corpus de travail. Ainsi, nous supposons (et cela sera notre dernière conjecture) que les rubriques où nous trouverons le plus de motifs pertinents seront celles où son objet principal était un entretien.

Les rubriques sélectionnées :

A la une - 3208
Science - 3244
Livres - 3260
International - 3210
Cinéma - 3476

Nous rappelons que les outils utilisés sont: 3 scripts perl dont 2 pour la sortie de Cordial et 1 pour celle de Tree Tagger, 1 feuille de style XSL également pour la sortie de Tree Tagger. Afin de comparer les outils sur une même rubriques d'une manière "quantitative" nous avons également utilisé ce script qui a pour but de calculer la fréquence relative des motifs par rapport à la rubrique dont il est extrait.

Ainsi nous avons deux outils différents pour chaque sortie, un script pour comparer les résultats. La première étape de l'analyse nous permet de comparer les résultats retournés par les différents outils et leurs performances quant à l'identification des motifs. La seconde étape basée sur la visualisation de graphes de co-occcurrents nous permettra de voir en contexte le comportement de ces motifs morphosyntaxiques.