BàO
[ Boîte à outils 4 ]

Analyse des patrons

Des textes aux graphes

À l'issue de la BàO 3 nous avons obtenu différentes extractions de patrons morpho-syntaxiques pour chaque rubrique. À partir de ce résultat, nous allons pouvoir maintenant représenter de manière plus visuelle les résultats grâce au programme patron3graph.pl (distribution MacOS) fourni en cours. Ces graphes sont générés à partir des extractions de patrons obtenues grâce à la méthode XSLT sur les sorties TreeTagger.xml.
Les patrons plus longs sont beaucoup plus rares et donc moins parlants que les patrons plus courts. Nous allons donc nous concentrer sur les patrons NOM ADJ et ADJ NOM. Nous présenterons donc les analyses par patron afin de faciliter la compréhension.



Patron NOM-ADJ - Rubrique France et Média

Nous avons sélectionné l'expression régulière .+?istes?, un suffixe très productif en français et dans les langues romanes en général. Il est utilisé pour dériver le nom d'un mouvement politique, religieux, culturel, artistique... Dans cette capture nous pouvons distinguer trois champs sémantiques présents dans le corpus France. En rose, nous avons isolé les mots qui relèvent du discours politique / religieux ("macronistes", "progressistes", "écologistes", "islamistes", etc.), en vert les mots liés au monde professionnel ("spécialiste", "économiste", "urbaniste", etc.) et enfin on remarque des mots plus neutres et moins intéressants pour notre recherche.

Le même suffixe est très répondu dans la rubrique Média. Comme dans la capture précédente, la zone verte représente le champs sémantique du travail. Puisque la rubrique Média est beaucoup plus spécialisée par rapport à la rubrique France, le lexique est plus orienté (journaliste, photojournaliste, éditorialiste, etc.).


Patron VER-DET-NOM - Rubrique France et Média

Maintenant nous allons analyser les contextes de "lancer" et "relancer" en français.

On peut considérer le corpus France comme un dictionnaire généraliste. On y trouve les occurrences les plus courantes et les collocations sont celles que l'on s'attendrait de trouver dans les entrées d'un dictionnaire (lancer une enquête, une campagne, un appel, un débat, un cri [d'alarme], etc.).

En revanche, le corpus Média est plus spécifique. Le verbe "(re)lancer" apparaît presque exclusivement dans son sens de "pousser qqn, qqch. en faisant connaître, en mettant en valeur, en crédit".

Conclusions

Voilà, la boîte à outils est maintenant pleine d'outils très pratiques pour le traitement de la langue. Grâce à ce projet, nous nous sommes familiarisés avec Perl, un langage de programmation fondamental pour le traitement automatique des textes. Nous avons également appris à parcourir une arborescence de fils RSS et à en extraire le contenu textuel, à l'étiqueter et à comparer les résultats obtenus grâce à des langages de requête très puissants. Ainsi, un énorme remerciement pour les professeurs qui nous ont accompagnés et tant appris tout au long de l'année.