Des textes aux graphes

La dernière étape que voici, n'est autre que la constitution des graphes à l'aide d'un programme fourni. Il permet de générer un graphe de cooccurrents sur la base des patrons à partir d'un motif choisi. Notre recherche s'est cantonnée aux deux rubriques cinema et culture du journal Le Monde. Nous y avons recherché les motifs "réalisateur", "acteur", "film", "français", "américain" sous la forme d'expressions régulières afin d'englober toutes les formes de ces mots.

Le modèle NOM_ADJ s'est avéré asssez fructueux. Néanmoins, pour des motifs tel que "acteur", des syntagmes incomplets apparaissaient comme "acteur le plus". Le patron NOM_ADJ_ADJ palliait ce problème mais appauvrissait considérablement les résultats. En voici l'exemple à droite.
Nous avons, au final, relevé deux comparaisons intéréssantes: les motifs "français" et "américain" dans la même rubrique culture selon le patron NOM_ADJ; et le motif "film" entre les données des deux rubriques à partir du modèle NOM_PREP_NOM.


Comparaison des motifs "[Aa]m.ricain(s|e|es)?" et "[Ff]ran.ais(e|es)?" dans la rubrique culture

Les motifs "américain" et "français" ont révélé de nombreux domaines culturels comme la musique, la littérature, la peinture ou l'audiovisuel. D'ailleurs, les particularités culturelles propres à chacun ressortent. Par exemple, les termes de gastronomie, révolution ou encore syndicalisme pour "français" sont assez parlants. De l'autre côté de l'Atlantique, ce sont les mots mégalopole, série télévisée, star ou même rappeur qui interpellent.
On observe, en plus, que le domaine de l'art proprement dit est prédominant pour "français" (musée, sculpteur, talent, peintre, commédienne, photographe) et le terme Académie revient tout de même 6 fois.


Comparaison du motif [Ff]ilms? dans les rubriques culture (à gauche) et cinema (à droite)

La mise en opposition du motif "film" dans nos deux rubriques méritait toute notre attention. On croirait véritablement que les graphes sont presque identiques. La majorité des syntagmes sont les mêmes:
- "film(s) en sélection officielle"
- "film(s) de sabre revu"
- "film(s) d'espionnage à"
- "film(s) d'action à"
- "film(s) de références cinématographique"
- "film(s) en langue étrangère"
Ils font, de plus, référence au même film chinois: Bi Gan au travers du syntagme "choix de Bi Gan".
Cette observation nous amène à penser que parfois, les articles sont repris d'une rubrique à l'autre. Effectivement, la frontière entre cinema et culture s'est avérée extrêmement fine.

Archive BAO4

BILAN

La réalisation des différentes boîtes-à-outils au cours de ce semestre nous a permis d'approfondir considérablement notre connaissance du langage de programmation Perl et aussi d'avoir pu appréhender le traitement ainsi que l'interprétation de grandes quantités de données textuelles.