ANALYSE

Avant de commencer notre analyse voici un schéma qui récapitule les différentes étapes effectuées lors du projet :

Nous allons ici présenter les résultats de notre étude sur le mot immigration dans le web français et le web arabe. A l'issu du transcodage nous avions dû supprimer certains urls qui n'étaient pas exploitables. Nous avons gardé pour le français 59 urls et pour l'arabe 44 urls dont nous avons extrait le contenu textuel. Nous avons concaténé les dumps afin d'obtenir deux corpus sur lesquels faire les analyses textométriques.

Le mot immigration :

Notre corpus français nettoyé contient 291 occurrences de notre mot et le corpus arabe contient 208 occurrences. Nous pouvons constater une asymétrie entre ces deux résultats qui s'explique par la taille des articles arabes qui sont moins conséquents que ceux en Français.
En effet, la segmentation via iTrameur indique qu'il y a 32 536 occurrences de mots pour le français alors qu'il y a dans le corpus arabe 5294 formes. 

Analyse le trameur, itrameur et nuage de mots :

➔ Dans Le trameur I. Chargement du Corpus Français dans Le trameur A l’issue de l’étape précédente nous disposons d’un corpus concaténant les contenus textuels des URLS transcodés en UTF-8. Pour procéder à l’analyse textométrique de notre corpus final, nous avons commencé par lancer son chargement dans Le Trameur avec son étiquetage automatique via Tree Tagger. Pour cela, nous nous sommes placés dans l’onglet Cadre afin de déclencher la sélection du fichier à charger : Nous avons d’abord coché la case étiquetage, puis nous avons créé une nouvelle base ensuite nous avons sélectionné notre corpus pour enclencher son chargement :




A. Exploration du dictionnaire

Recherche dans le dictionnaire du mot « immigration » :

Nous avons choisi de mener notre analyse en étudiant l’utilisation du terme «immigration». Nous avons, avant toute chose, vérifié que ce terme était présent dans notre corpus grâce à l’onglet « Forme-Lemme » disponible dans le Trameur. Nous avons donc tapé notre mot dans les parties « recherche forme » :

Le dictionnaire de forme nous indique que notre mot tel que nous l’avons tapé apparait 167 fois dans notre corpus. En comptant les différentes formes, nous constatons qu’il y a 236 occurrences de notre mot dans le corpus. Nous avons ensuite retapé notre mot mais cette fois-ci avec une majuscule afin de comparer les résultats, il apparait 55 fois avec une majuscule.

En comptabilisant toutes les occurrences avec à l’initial une majuscule ou une minuscule on trouve 291 occurrences de notre mot. Dans la colonne de droite nous aurions du obtenir des résultats différents. En effet, dans cette partie normalement nous devons obtenir les résultats étiquetés, c’est à dire les résultats segmentés et lemmatisés afin d’obtenir la forme canonique. Les cinq formes auraient dû être regroupées en une seule mais la segmentation n’a pas fonctionné. Cette erreur est surement du à la présence de l’article défini « l’» et de la forme « d’ » qui ont compliqué la lemmatisation.

B. Concordancier

Les concordanciers permettent de construire des concordances, c’est-à-dire, une liste de contextes d’occurrence pour un terme de requête dans un corpus de texte. Lorsqu’on soumet une requête, le système fouille dans sa base de données et affiche toutes les occurrences trouvées, dans leur contexte. Voici le concordancier de notre corpus :

Nous pouvons également utiliser la fonction « Tri-concordance » qui permet de trier les contextes de la concordance



Nous avons décidé de choisir comme longueur de la fenêtre graphique 15 formes à droite et 15 formes à gauche. Dans les exemples précédents, l’affichage demandé est celui d’une forme en tenant compte de la seule partition disponible. Comme on peut le constater dans la capture d’écran le mot « immigration » est régulièrement suivi des formes : clandestine ( apparait 35 fois dans le corpus ) irrégulière ( appairait 40 fois dans le corpus ) Nous avons également fait des recherches sur des mots qui semblent pertinents pour l’analyse : France ( 280 fois ) migrants ( 160 fois ) réfugiés ( 73 fois ) Nous avons ensuite réalisé différents nuages de mots afin de visualiser de manière plus graphique les mots les plus présents dans notre corpus.

C. Nuage de mots

Premier nuage de mots

Nous avons réalisé notre premier nuage de mots à l’aide du site suivant : https://www.nuagesdemots.fr/#



Dans ce premier nuage de mots, nous pouvons constater que les mots qui ressortent sont: pays, réfugiés, immigration, étrangers, politique, situation. Nous ne sommes pas étonnés que ce soit les mots qui soient les plus fréquents dans notre corpus car ils sont directement en lien avec notre terme. Cependant, nous sommes surpris de constater qu’il y a presque aucune occurrence de pays autre que la France. Nous trouvons uniquement les termes » Calais » , » Europe » , « Manche » et « Syrie ». Nous trouvons que ces résultats ne sont pas assez informatifs sur la provenance des migrants. De plus, nous ne trouvons aucune occurrences des raisons qui poussent ces personnes à quitter leur pays sauf le terme « guerre » mais celui-ci est écrit très petit ce qui indique qu’il est très peu présent dans le corpus. Nous avons volontairement choisi un nuage de mots qui met en avant de nombreuses occurrences afin d’obtenir une visualisation complète du corpus français. Deuxième nuage de mots Pour comparer les résultats nous avons ensuite réalisé un nuage de mot avec ce site : https://nuagedemots.co/

Cette fois-ci, nous avons choisi un nuage de mots plus restreint. Les résultats de ces deux nuages de mots sont assez équivalents. Celui-ci diffère légèrement car sa taille est moins conséquente. Les mots qui ressortent le plus sont:« immigration», « migrants », « France », « pays » et « accueil ».

D. Cooccurrents

Selon le dictionnaire Larousse, la cooccurrence est définit comme l’apparition dans un même énoncé de plusieurs éléments linguistiques distincts, et de la relation entre ces éléments. Ces mots ne sont pas liés par synonymie ou antonymie mais possèdent cependant un lien conceptuel. La notion de cooccurrence est à la base de celle de champ lexical. Cette fois-ci, nous nous sommes servi du site iTrameur afin de construire un graphe de cooccurrents sur un pôle donné. Pour cela, nous nous sommes rendu sur ce site : http://www.tal.univ-paris3.fr/plurital/outils/coocjs/index.html

Résultat :



Le cooccurrent principal du mot immigration est « clandestine ». Nous nous sommes rendu sur un dictionnaire des cooccurrences afin de savoir si les résultats obtenus étaient spécifiques à notre corpus ou généralisable. http://www.btb.termiumplus.gc.ca/tpv2guides/guides/cooc/index-fra.html?lang=fra




Nous avons en commun les termes « clandestine », « illégale » et « massive » cependant les autres termes qui concernent l’immigration légale ne font parti des cooccurrents directs de l’immigration dans notre corpus.



II Pour l’Arabe :

Pour le corpus arabe, nous avons utilisé seulement iTrameur, car le trameur ne sait pas lire de droite à gauche. Nous avons constaté que le mot immigration « الهجرة » esteà la troisième place dans le corpus arabe après deux mots grammaticaux ; « في « , et « من » qui signifient « dans » et « de ». Le dictionnaire nous indique que notre mot immigration apparait 208 fois dans notre corpus.

A. Exploration du dictionnaire



B. Concordancier

Le dictionnaire de iTrameur mets à disposition un onglet concordancier qui va nous permettre d’observer toutes les occurrences du mot immigration dans notre corpus en arabe. Ainsi on va pouvoir observer le contexte droit et gauche de chaque occurrence.

Voici le résultat :


Néanmoins nous avons eu du mal à relever le contexte droit et le contexte gauche du mot immigration car lorsqu’on observe les concordances du mot immigration, on constate que iTrameur lit l’arabe de gauche à droite au lieu de le lire de droite à gauche car les contextes droit en arabe sont considérés comme des contexte gauche. Par exemple le mot immigration en arabe est toujours accompagné du mot « غير الشرعية » qui signifie « clandestine », ce mot en étant lu de droite à gauche est censé être toujours dans le contexte gauche du mot immigration, or dans iTrameur on trouve ce mot uniquement dans le contexte droit.


Les Contextes :


On trouve souvent après la forme « immigration clandestine » des destinations et parmi ces destinations, souvent des pays de l’Europe comme l’Allemagne, la France ainsi qu’une forte présence du Canada. Nous nous sommes ainsi demandé de quels pays venaient les migrants ? Il est évident que l’on peut pas répondre à cette question en ayant seulement deux petits corpus dans deux langues, mais on a remarqué et surtout dans le corpus arabe, des informations sur les pays de départ plutôt que sur les pays d’accueil. Selon le corpus arabe, une grande majorité des migrants partent de la Libye, ou de la Syrie.

C. Nuage de mots

Pour faire le nuage de mots en arabe nous avons utilisé : https://worditout.com/word-cloud/create. En regardant le nuage de mots, on constate que le mot immigration « الهجرة » est à la 3e place après les deux mots grammaticaux comme le dictionnaire de itrameur nous l’a indiqué auparavant.




Retour sur la définition

L’immigration désigne aujourd’hui l’entrée, dans un pays ou une aire géographique donnée, de personnes étrangères qui y viennent pour un long séjour ou pour s’y installer. Le mot immigration vient du latin in-migrare qui signifie « rentrer dans un lieu ». Elle correspond, vue du côté du pays de départ, à l’émigration. Selon la définition des Nations Unies (« personne née dans un autre pays que celui où elle réside »), au 1er janvier 2014, l’immigration en France représente 7,7 millions de personnes, soit 11,6 % de sa population, dont environ 5,5 millions (8,3 %) nées hors de l’Union européenne. Elle se classe ainsi au septième rang mondial pour le nombre d’immigrés, derrière les États-Unis (45,8 millions), la Russie (11) et l’Allemagne (9,8). La France a enregistré un peu plus de 100.000 demandes d’asile en 2017, un niveau « historique, il y avait moins de 20.000 demandes en 1981. Si on analyse la nationalité des personnes qui déposent officiellement une demande d’asile dans un pays de l’UE : sur les cinq premiers mois de l’année, les Syriens sont en tête, avec 68 200 demandeurs et 18,5 % des procédures.



Si on mélange les mots les plus fréquents dans nos deux corpus on obtient la liste suivante : pays, personnes, immigrés, France, Allemagne, Syrie. Ces termes sont répresentatifs de l’immigration en France et dans les pays du monde arabe car comme indiqué dans la définition la France et l’Allemagne font parti des pays qui accueillent le plus de migrants. De plus, comme nous l’indique le schéma ci-dessus, la Syrie est actuellement le pays ayant soumis le plus de demande d’asile. Cependant, nous pouvons observer que dans les deux corpus, le cooccurrent du terme immigration est l’adjectif « clandestine ». L’immigration est donc dans nos deux corpus majoritairement associée à la clandestinité. Néanmoins, à travers les nuages de mots que nous avons réalisé nous pouvons constater une différence de point de vue. La France traite ce sujet d’un point de vue essentiellement politique, en effet les cooccurrents principaux sont « chiffres », « politique », « loi », « mesure », « massive » et dans le nuage de mots ce sont essentiellement des termes liés à l’illégalité qui ressortent. Nous pouvons émettre l’hypothèse d’une opinion assez négative sur le web français. De plus, le web français communique essentiellement sur les conséquences liées à l’immigration en France. En effet, la France est un pays très sollicité par les migrants ce qui explique la vague d’immigration clandestine massive comme à Calais par exemple. L’immigration est un sujet qui est au cœur des problématiques politique en France. De plus, notre président actuel est considéré comme le plus sévère concernant ce sujet, nous avons relevé 30 occurrences du Nom Propre « Macron » dans notre corpus. Concernant le web arabe, le point de vue est totalement différent. Cette fois-ci, ce sont surtout les destinations des migrants qui sont citées. Le web ne se place plus du point de vue du pays d’accueil mais du point de vue du pays de départ. En effet, de nombreux pays du monde arabe sont touchés notamment la Libye et la Syrie qui ressortent dans le nuage de mot du corpus arabe. Nous constatons que nos deux corpus sont représentatifs de la situation actuelle de l’immigration. Néanmoins, c’est une image assez négative qui est véhiculée. Nous avions volontairement choisi un sujet qui soient en lien avec nos deux nationalités ( Clara est française et Suhaib est libyen ) mais surtout qui opposent deux points de vue. La France se positionne du côté du pays d’accueil et la Syrie en est le pays de départ. Nous sommes satisfaits de voir que nos deux corpus sont représentatifs de ce phénomène.

Conclusion :

Certains pays se trouvent actuellement dans des conditions très difficiles ce qui poussent leurs habitants à immigrer dans d’autres pays. À l’issue de notre analyse, nous nous attendions à voir ressortir les principaux facteurs de migration tels que la croissance économique faible, le chômage, la guerre, les catastrophes naturelles ainsi que les principaux pays concernés. Or, nous constatons que sur le web ce n’est pas l’immigration qui est majoritairement traitée mais l’immigration clandestine. A l’issu de cette analyse, il ressort effectivement que le cooccurrent principal du terme « immigration » est « Clandestine » et non les termes « contrôlée » ou « légale ». L’immigration est donc abordée sous un angle plutôt négatif, plus comme un fléau qu’une solution aux problèmes des pays concernés. On trouve malgré tout quelques occurrences des phénomènes de base entrainant l’immigration mais ils sont en minorités comme nous le prouve les nuages de mots. De plus, on constate que dans l’immigration sur le web français est surtout traitée à l’échelle locale et non mondiale ce qui explique les nombreuses occurrences du terme « France » dans notre corpus. Ce n’est pas l’immigration en général qui est traité mais l’immigration clandestine en France des migrants. C’est un des seuls pays qui ressort dans l’analyse nous n’avons donc pas d’indications précises sur l’origine des migrants ou sur les autres pays destinataires. L’immigration est donc essentiellement liée a un problème de clandestinité, de chiffres, de loi et par conséquent à une attente de contrôle ou de régulation et si les mots « politique », « loi » et « projet » sont aussi majoritairement présents cela prouve que l’immigration est vue comme un problème à traiter et que les français sont en attente d’une réponse politique sur la question de légiférer.