1.png 2.png 3.png 4.png BaO.png


Analyses & résultats des graphes de co-occurrents



Introduction

Nous avons désormais des fichiers en texte brut qui stockent nos extractions. Nous allons pouvoir interroger ces textes afin de visualiser les co-occurrents de certains motifs lexicaux. En d'autres termes nous observerons le comportement de certains mots en contexte : quels sont les termes qui s'attirent entre eux. Pour ce faire nous avons utilisé un programme qui prend en argument le texte à traiter ainsi qu'un fichier où nous écrivons notre motif (lexical cette fois-ci).

Nous avons créé des graphes de différentes rubriques mais également de différentes extractions d'une même rubrique afin de mettre en contraste leurs résultats.






Résultats

3208

				



 
➝  DET "cinq"|"trois"|"deux" NOM : un décalage s'opère entre les déterminants
	➝ des : le syntagme n'est que la dernière moitié d'un syntagme plus large 
		ex : le plus long / des cinq actes
	➝ les : le syntagme fait sens même sans contexte
		ex : les cinq actes
				
			

				


➝ DET ADJ "joueurs" :
	➝ la différence évoquée entre "les" et "des" se confirme ici
	➝ "des" précède uniquement des motifs numéraux
	➝ "les" précède un adjectif qui qualifie le NOM
		➝ l'unité fait bien sens de manière indépendante
 
				
			

				



➝  DET ADJ "mois"|"jours": une différence de registre apparaît selon les déterminants
	➝ "les derniers jours" est standard : cela s'entend à la lecture
	➝ "des derniers jours" n'est pas standard : une résistance s'entend à la lecture.
	➝ De fait, "dernier" et "premier" sont des adjectifs et des substantifs.

➝ La résistance vient de la redondance implicite de l'ADJ/substantif actualisé comme substantif 
  par le partitif "des".
				
			

Annexes





3210

				

 
➝ "des" ADJ NOM : 
	➝ "des stagiaires reste" : l'apparente faute d'orthographe confirme notre hypothèse
		➝ ici ce n'est pas une faute 
		➝ le SUJ de "reste" != "des stagiaires"
			➝ le SUJ = "un des stagiaires"
			
➝ Importante différence avec une quasi absence de numéraux par rapport à la rubrique 3208
				
			

				


➝ DET "principaux" NOM :
	➝ le motif permet une articulation avec la préposition "d'"
	➝ l'articulation ne qualifie pas à proprement parler 
	➝ "d' " est un partitif qui saisit le nom comme une entité matérielle
		 ➝ ici cela a pour conséquence de donner du poids à la qualification
		 ➝ ce n'est plus "une" opposition mais "de" l'opposition
		 ➝ ce n'est plus "un" ordre" mais "de" l'ordre 
		 ➝ cette variation influe sur le sens du mot qui le précède
		 
➝ Cette lourde insistance peut être expliquée par le choix du motif "principaux" :
	 ➝ il met lui-même en exergue quelques éléments extraits d'un ensemble
	
 
				
			

Annexes





3244

				


➝ "au" ADJ NOM :
	➝ Le motif permet de situer de manière générale
		 ➝ dans l'espace : "fin fond" | "au large d'Hawaï"
		 ➝ dans le temps : "dernier trimestre" | "au même moment'
		 	➝ dans l'espace/temps : "au futur aéroport" 
		 ➝ dans l'argumentation : "au même titre" 
		 
➝ Permet de repérer des entités nommées non identifiées comme telles par l'étiqueteur.  
				
			

				


➝ "aux" ADJ NOM :
	➝ une légère variation avec la forme plurielle 
		➝ le sens s'élargit à l'adresse :
			➝ adresse humaine : "aux meilleurs élèves"
			➝ adresse géographiques : "aux grands panneaux"
			➝ adresse non humaine : "aux belles paroles" 
		 
➝ Le pluriel qui saisit les référents dans leurs pluralités rendrait l'adresse plus vague :  
	➝ cela explique le fait que nous n'ayons plus d'entités nommées
				
			

Annexes





3260

				


➝ "les" ADJ NOM :
	➝ saisit des éléments d'un ensemble sans préciser l'ensemble 
	➝ contrairement à "des" qui saisit un élément unique d'un ensemble qu'il explicite
		
➝ le mouvement est donc inversé pour parler des référents
	➝ dans le second cas on spécifie le groupe mais pas l'unité 
		ex : "un des enfants" 
	➝ dans le premier cas on spécifie le groupe qui constitue l'unité qui se détache du groupe grâce à une caractéristique 
		ex : "les gentils enfants"
					
		 
➝ Nous remarquons que cette nuance est palliée par la nature des référents 
	  ➝ des référents dont la caractéristique est d'avoir une dénomination précise 
	 	 ➝ héritiers : humains = entité nommée 
	 	 ➝ participants : humains = entité nommée 
	 	 ➝ détenteurs : humains = entité nommée 
	 	 ➝ poètes : humains = entité nommée 
	 	 ➝ romans : non-humains = entité nommée 
	 	 ➝ noms : humains = entité nommée
	 	 
 ➝ Ainsi, ici le patron met en évidence une anonymisation pour saisir les référents en groupe
				
			

				


➝ "du" ADJ NOM 
	➝ Le motif lexical permet d'identifier des syntagmes qui précisent l'origine 
	➝ nous sentons donc (tout comme pour les premiers motifs) que nous nous situons dans la seconde 
	partie d'un syntagme plus large
		➝ "une chanson" / "du meilleur album"
		➝ "le chapitre" / "du huitième volume"
				
			

Annexes





3476

				



➝ "des" ADJ NOM :
	➝ permet d'identifier des syntagmes indiquant une variation linguistique 
		➝ "des bons petits"
		➝ "des Bouffes parisiens"
		➝ "des deux supers"
		
➝ Nous avions pensé que les motifs révèleraient une variation linguistique 
	➝ c'est ici le cas
	➝ toutefois nous avons également dit que la rubrique était la moins contrainte (dans l'écrit)
		➝ Aussi, cela voudrait-il dire que le motif est discriminant quand le registre est 
		déjà "non-standard"?
		➝ Autrement dit, le motif ne permet pas d'identifier mais de confirmer un registre	
				
			

				


➝ "du" ADJ NOM 
	➝ Cela confirme le sens dégagé grâce à la rubrique "Livre" 
	➝ les syntagmes repérés avec "du" ne sont que la seconde moitié d'un syntagme plus large
		➝ "le film" / "du meilleur réalisateur"
		➝ "aimé" / "du grand public"
		➝ "un génie" / "du nouveau cinéma"
				
			

Annexes





Conclusion

La lexicalisation du motif morphosyntaxique permet de mettre en exergue la dépendance du syntagme extrait. Quant à notre hypothèse principale (l'identification d'une variation linguistique grâce à notre motif) : elle est ici invalidée. Du moins, le genre des rubriques a une forte influence qui contraint l'écriture. Aussi, sans contexte nous ne pouvons pas clairement identifier les syntagmes comme opérant un écart ou non avec la "norme". C'est cela qui manque à notre travail : un concordancier qui nous permettrait de voir au delà du motif extrait. Toutefois cela dit également quelque chose du motif : c'est réellement sa construction syntaxique qui domine dans son caractère discriminant puisque le lexique ne suffit pas à l'identifier comme tel.

Ainsi, les différents outils utilisés retournent des résultats hétérogènes que nous pouvons difficilement comparer sans contexte. En effet, comment évaluer leur pertinence en n'ayant qu'une partie du sens ? Cela est particulièrement mis en lumière par le motif que nous avons choisi. Ce dernier se révèle être souvent une moitié de syntagme et donc dépendant pour faire sens (ex : "une fraise" / "des beaux bois") Peut être est-ce causé par la nature des déterminants indéfinis qui ne définissent donc pas précisément un objet ?

Nous avons également vu l'importance de l'étiqueteur : phase clef du projet. Afin de ne pas avoir de disparités dues à l'étiquetage, pourrions-nous entraîner un étiqueteur (avec le module NLTK de python par exemple) afin qu'il soit plus performant car plus spécifique au projet.

Aussi, ce projet me permit d'apprendre à utiliser plusieurs outils, à essayer de les mettre en regard et de déterminer le plus pertinent pour la tâche donnée. De ces comparaisons nous pouvons dire que la structure des documents XML permet une identification et une interrogation plus précise des éléments à extraire.

J'ai pris beaucoup de plaisir durant ce projet et j'espère avoir réussi à le partager.