Cours n°2 Année 2004-2005 : "Ajuster corpus et objectifs"
Dates : 03.12.2004, 07.01.2005. Lieu : Paris 3.
- Animé par : Serge Fleury (P3) et Benoît Habert (P10)
Présentation du cours
Ajuster corpus et objectifs
Motivation : un certain nombre d'applications en TAL ou de recherches en linguistique supposent la constitution d'un corpus :
- mise au point d'une terminologie d'un domaine ;
- étude d'une notion en veille sociale ;
- examen de la productivité d'un affixe en morphologie ;
- . etc.
Par ailleurs, un certain nombre de ressources linguistiques sont disponibles :
- versions électroniques de journaux ;
- bases de données textuelles (comme Frantext pour les textes littéraires français) ;
- textes accessibles sur la Toile ;
- etc.
L'objectif de la formation est d'aider à choisir au sein des ressources disponibles en fonction des buts visés.
Travail à remettre
- Cours du 03.12.2004
- Cours du 07.01.2005
- Pour le séance du 03.12.2004, on utilisera les ressources associées (cf infra) au corpus n°1 (2003/2004) et pour la séance du 07/01/2005, on utilisera les ressources associées (cf infra) au corpus n°2 (1991/2000)
Travaux réalisés
Ressources utilisées pour ce cours
Supports
- Transparents 29.10.2004 : "Ajuster corpus et objectifs : introduction"
- Bibliographie
- Transparents 03.12.2004 : "Sémantique distributionnelle et approche harrissienne"
Textes de référence
- Laïcité et Enseignement supérieur : sur le site de la CPU. Le Rapport et la synthèse (en PDF).
- Dossier de l’inspection générale de l’éducation générale centré sur des exemples concrets avec un rappel des repères fondamentaux.
- Une étude de législation comparée du port du foulard islamique dans quelques pays d’Europe peut être consultée sur le site du Sénat.
- Un site complet a été réalisé par la documentation française.
- "Les signes religieux à l'école", dossier sur le site laicite-laligue.org.
- DÉBAT PUBLIC : LA LAÏCITÉ sur le site de France 5.
Détours littéraires
- "La Dernière Classe", Alphonse Daudet (annotation par Zakaria Fatih)
Références bibliographiques
- Sémantique et corpus. Traité IC2. Série Cognition et traitement de l’information. Sous la direction de A. Condamines. Hermès/Lavoisier 2005
Dictionnaires
- Le Trésor de la Langue Française Informatisé
- laïcité
- laïc
- Dictionnaire de l'Académie française, neuvième édition. Version informatisée
- Le NOUVEAU Grand dictionnaire terminologique
- laïcité
Chronologie des évènements du monde (i.e en dehors du corpus construit à partir du journal)
Liens
- Dates clés pour la laïcité : Chronologie, sur le site Vie-Publique.fr ou ici Chronologie et Textes (Lois et autres) sur le site portail-religion.com
- "Mieux comprendre la laïcité" - Chronologie sur le site www.laicite-laligue.org
- DÉBAT PUBLIC : LA LAÏCITÉ - Historique sur le site de France 5
- Chronologie 2004 sur le site Vie-Publique.fr (Chronologie des évènements en France)
- Chronologie 2003 sur le site Vie-Publique.fr (Chronologie des évènements en France)
- Chronologie Internationale 2004 sur le site de la Documentation Française. Choisir un pays.
- Chronologie Internationale 2000-2003 sur le site de la Documentation Française. Choisir un pays et une année.
Synthèse
Construite à partir des liens précédents
Synthèse à compléter | |
Date | Evènement |
26 août 1789 | L'article X de la Déclaration des droits de l'homme et du citoyen proclame la liberté religieuse « Nul ne doit être inquiété pour ses opinions, même religieuses » |
1791 | la Constitution instaure la liberté des cultes et donne les mêmes droits aux religions catholique, judaïque et protestante. |
1881-1882 | Lois de Jules Ferry instituant l'école publique gratuite, laïque et obligatoire. |
1905 | Loi de séparation des Églises et de l'Etat : « La République ne reconnaît, ne finance ni ne subventionne aucun culte ». |
1946 | Inscription du principe de laïcité dans le Préambule de la Constitution. |
1959 | Loi Debré accordant des subventions aux écoles privées sous contrat. |
1989 | Incidents dits « du foulard islamique » suivis des avis des 27/11/1989 et 2/11/1992 du Conseil d'Etat privilégiant une solution au cas par cas. |
15-24 mai 2003 | Création le 15 de la Convention laïque pour l'égalité des droits et la participation des musulmans de France (CLE). Le 24, création du Conseil français des musulmans laïques à l'instigation d'Amo Ferhati, conseiller de Tokia Saïfi, secrétaire d'État au Développement durable, afin de défendre les " valeurs de la laïcité ". |
3 juillet 2003 | Jacques Chirac, président de la République, installe une commission sur la "laïcité dans la République", présidée par Bernard Stasi, Médiateur de la République. |
11 décembre 2003 | Remise à Jacques Chirac, président de la République, du rapport de la Commission Stasi, qui propose notamment l'adoption d'une loi interdisant la "manifestation ostensible" de tenues et de signes religieux (grande croix, foulard et kippa) et politiques à l'école. Le 17, Jacques Chirac, président de la République déclare "nécessaires" deux lois, l'une interdisant le port de signes religieux "ostensibles" à l'école, l'autre sur l'hôpital, et annonce la création d'un Observatoire de la laïcité, l'installation d'une autorité indépendante de lutte contre les discriminations ainsi que la rédaction d'un Code de la laïcité qui sera remis notamment aux fonctionnaires et agents publics. (Consulter le compte-rendu du Conseil des ministres) |
28 janvier 2004 | Présentation en Conseil des ministres, du projet de loi relatif à l'application du principe de laïcité dans les écoles, les collèges et les lycées publics (Consulter le rapport de la commission Stasi). |
15 mars 2004 | Promulgation de la loi interdisant dans les écoles, collèges et lycées publics, en application du principe de laïcité, le port de signes ou de tenues manifestant une appartenance religieuse (Consulter la loi). |
17-22 mai 2004 | Le 17, le Conseil supérieur de l'Éducation approuve la circulaire d'application de la loi du 15 mars 2004 encadrant, en application du principe de laïcité, le port de signes ou de tenues manifestant une appartenance religieuse dans les écoles, collèges et lycées publics. Le 22, publication au Journal officiel de la circulaire d'application de la loi (Consulter la circulaire). |
20 juillet 2004 | Deux inspecteurs généraux, Hanifa Cherifi, médiatrice de l'éducation nationale sur la question du voile, et Gérard Mamou, sont chargés par F. Fillon de suivre l'application de la loi surla laïcité. (Consulter la circulaire). |
14 octobre 2004 | Le premier ministre a mis à l'ordre du jour de l'Assemblée Nationale un débat sur l'éventualité de l'entrée de la Turquie dans l'Union européenne. (Consulter la compte-rendu). |
Aout 2005 |
La laïcité à l’école (Source : La Durance n°14, mercredi 14 septembre 2005) Le ministère met en ligne dans son abécédaire de rentrée le bilan du dispositif de suivi dans l’application de la loi du 15 mars 2004 sur la laïcité à l’école. 639 cas de signes ou de tenues manifestant ostensiblement une appartenance religieuse ont été officiellement recensés l’an dernier – soit 38% seulement des faits enregistrés l’année précédente - débouchant sur 48 conseils de discipline et 47 exclusions définitives d’élèves. “ Le dispositif d’accompagnement de l’année scolaire écoulée a globalement bien fonctionné et il est reconduit pour cette année.” Fichier au format pdf. ftp://trf.education.gouv.fr/pub/edutel/actu/2005/rentree_scolaire/laicite.pdf Toutes les rubriques de l'abécédaire : http://www.education.gouv.fr/actu/2005/rentree_scolaire/abecedaire.htm Sur le même sujet, voir aussi le dossier “ Valeurs républicaines et laïcité ” sur le site Eduscol http://eduscol.education.fr/index.php?./D0157/accueil.htm Ainsi que le copieux dossier édité par le Scéren (ex-CNDP) “ Laïcité, valeur de l’école républicaine ” http://www.sceren.fr/laïcité/default.htm |
Corpus
- RAPPEL : Pour le séance du 03.12.2004, on utilisera les ressources associées au corpus n°1 (2003/2004) et pour la séance du 07/01/2005, on utilisera les ressources associées au corpus n°2 (1989/2000)
1. Corpus "Le Monde" : Version électronique du journal "Le Monde", 2003/2004
Préambule
- Dans cette version du corpus, le processus de filtrage des parties textuelles se fait en utilisant la commande Unix lynx -dump sur les pages HTML originales, or ces pages contiennent systématiquement un sommaire de chaque rubrique pour une journée donnée. Sur chaque version "nettoyée" d'une page d'article, on a donc une "surcharge" textuelle correspondant au rappel de ces rubriques.
- Une autre version version de ce corpus est disponible (dite corpus V2). Pour celle-ci, le processus de filtrage textuel se fait toujours avec la même commande Unix mais un filtrage préalable des zones textuelles est opéré : on commence par isoler les contenus textuels correspondant au nom de la Rubrique, du Titre de l'Article et de son contenu "propre". Les pages HTML originales sont assez bien structurées et permettent d'isoler ces zones et a fortiori de négliger le sommaire qu'elles contiennent aussi.
Présentation générale
- Période traitée : Avril 2003 - Octobre 2004
- Nombre d'articles : environ 5000 articles (pour le CORPUS FRANCE qui regroupe les rubriques "France" et "France-Société").
- Présentation du projet de veille : Corpus Chronologique "Le Monde"
- Corpus Chronologique "Le Monde" : accès aux données (accès restreint)
- Corpus Chronologique "Le Monde" (miroir) : accès aux données (accès restreint, intranet ILPGA)
- Utilisation de corpus thématiques extraits du corpus complet [0] : rubriques "France", "France-Société", "Société", "International".
- Paramètres lexicométriques du CORPUS FRANCE (rubriques "France" et "France-Société").
- Paramètres lexicométriques du CORPUS SOCIETE (rubrique "Société").
- Paramètres lexicométriques du CORPUS INTERNATIONAL (rubrique "International").
- Principales caractéristiques lexicométriques (de la partition MOIS) du CORPUS FRANCE (rubriques "France" et "France-Société").
- Principales caractéristiques lexicométriques (de la partition MOIS) du CORPUS SOCIETE (rubrique "Société").
- Principales caractéristiques lexicométriques (de la partition MOIS) du CORPUS INTERNATIONAL (rubrique "International").
Données à utiliser
Les mots et leur fréquence
- Les Mots du Monde (accès restreint) (ou ici accès restreint, intranet ILPGA ) : pour chaque journée, index et fréquence de chaque "mot" du journal dans son ensemble.
Formes de la famille laïcité
- CORPUS FRANCE - Liste tous les mots couverts par l'expression régulière utilisée pour repérer tous les mots qui commencent par "laïc" ou "laïq" [i.e. \blaï(c|q).*\b] : Famille laïcité (remarque : on ne trouve pas dans ce corpus de forme contenant "laï(c|q)" ailleurs qu'en début de mot).
- CORPUS SOCIETE - Liste tous les mots couverts par l'expression régulière utilisée pour repérer tous les mots qui commencent par "laïc" ou "laïq" [i.e. \blaï(c|q).*\b] : Famille laïcité (remarque : idem).
- CORPUS INTERNATIONAL - Liste tous les mots couverts par l'expression régulière utilisée pour repérer tous les mots qui contiennent la séquence "laïc" ou "laïq" [i.e. \b.*laï(c|q).*\b] : Famille laïcité (remarque : contrairement aux deux corpus précédents, on retrouve ici des formes avec préfixes).
Evolution dans le temps
- Les graphiques qui suivent donnent une représentation de la ventilation et de l'évolution chronologique des mots sélectionnés sur la période utilisée (découpage en mois).
- CORPUS FRANCE - Graphique de ventilation n°1 (valeur relative) : laïcité
- CORPUS FRANCE - Graphique de ventilation n°2 (valeur absolue) : laïcité
- CORPUS FRANCE - Graphique de ventilation n°3 (valeur relative) : \blaï(c|q).*\b
- CORPUS FRANCE - Graphique de ventilation n°4 (valeur absolue) : \blaï(c|q).*\b
Contexte
- "Les concordances fournissent, sur l'emploi d'une forme donnée, une vision plus synthétique que celle qui résulte de la lecture séquentielle. En particulier, elles permettent d'étudier plus facilement les rapports qui peuvent exister entre les différents contextes d'une même forme" [1].
- CORPUS FRANCE - Concordance n°1 : \blaï(c|q).*\b
- CORPUS FRANCE - Concordance n°2 : \blaï(c|q).*\b
- CORPUS FRANCE - Concordance n°3 : \blaï(c|q).*\b
- CORPUS FRANCE - Concordance n°4 : \blaï(c|q).*\b
- CORPUS FRANCE - Concordance n°5 : \blaï(c|q).*\b
- CORPUS FRANCE - Concordance n°6 : \blaï(c|q).*\b
- CORPUS FRANCE - Segments répétés [2] : (1) avec la forme "laïcité"
- CORPUS FRANCE - Segments répétés [2] : (2) l'ensemble (Attention fichier de 8 Mo)
- CORPUS FRANCE - Segments répétés [2] : (3) avec la séquence "laï(c|q)"
"Vers des constellations"
- CORPUS FRANCE : (1) Représentation topographique de la répartition de \blaï(c|q).*\b. Dans la figure présentée, Lexico3 a construit une représentation graphique du texte (qu'on appelle aussi une carte des sections, et ici : une section = un article) dans laquelle un carré bleu contient un ou des éléments de cette famille de formes
- CORPUS FRANCE : (2) Mots spécifiques ([3], [4]) dans les sections contenant un mot de la famille \blaï(c|q).*\b (i.e. les co-occurrents de laïcité). A partir de la carte des sections précédente, on demande à Lexico3 de rechercher les mots spécifiques contenus dans l'ensemble des carrés bleus, c'est à dire qu'on lui demande de rechercher les mots spécifiques dans les sections qui contiennent un mot de la famille \blaï(c|q).*\b. On obtient une liste de mots qui portent soit un indice de spécificité positif[3] soit un indice de spécificité négatif[4], dans le premier cas, on aboutit en gros à une liste des co-occurrents des mots de la famille \blaï(c|q).*\b, dans le second cas on obtient des mots qui n'apparaissent pas avec cette famille de mots.
Avec annotations syntaxiques
- Corpus étiqueté et lemmatisé : A partir du corpus global, (1) Extraction des articles contenant le motif \blaï(c|q).*\b (le corpus résultant compte un peu plus de 500 articles) (2) puis étiquetage avec Cordial. On dispose in fine de plusieurs fichiers : [LEMME-CATEGORIE], [LEMME], [CATEGORIE], [FORME-CATEGORIE].
[LEMME-CATEGORIE] CORPUS FRANCE - Concordance n°7 : \blaï(c|q).*\b
[LEMME] CORPUS FRANCE - Concordance n°8 : \blaï(c|q).*\b
[FORME-CATEGORIE] CORPUS FRANCE - Concordance n°9 : \blaï(c|q).*\b
Mêmes "parcours" en regardant d'autres rubriques
- CORPUS SOCIETE - Graphique de ventilation n°5 (valeur relative) : laïcité
- CORPUS SOCIETE - Graphique de ventilation n°6 (valeur absolue) : laïcité
- CORPUS SOCIETE - Graphique de ventilation n°7 (valeur relative) : \blaï(c|q).*\b
- CORPUS SOCIETE - Graphique de ventilation n°8 (valeur absolue) : \blaï(c|q).*\b
- CORPUS SOCIETE - Concordance n°10 : \blaï(c|q).*\b
- CORPUS SOCIETE - Segments répétés [2] : (1) l'ensemble (Attention fichier de 3 Mo)
- CORPUS SOCIETE - Segments répétés [2] : (2) avec la forme "laïcité"
- CORPUS SOCIETE - Segments répétés [2] : (3) avec la séquence "laï(c|q)"
- CORPUS INTERNATIONAL - Graphique de ventilation n°9 (valeur relative) : laïcité
- CORPUS INTERNATIONAL - Graphique de ventilation n°10 (valeur absolue) : laïcité
- CORPUS INTERNATIONAL - Graphique de ventilation n°11 (valeur relative) : \b.*laï(c|q).*\b
- CORPUS INTERNATIONAL - Graphique de ventilation n°12 (valeur absolue) : \b.*laï(c|q).*\b
- CORPUS INTERNATIONAL - Concordance n°11 : \b.*laï(c|q).*\b
- CORPUS INTERNATIONAL - Segments répétés [2] : (1) avec la séquence "laï(c|q)"
- CORPUS COMPLET - Concordance n°12 : \b.*laï(c|q).*\b et regroupement par Rubrique
2. Corpus "Le Monde" 1991-2000
Présentation générale
- Présentation générale du corpus "La famille laïcité dans la base LM10 (Le Monde 10 ans - 91-00)"
- Résumé : ce corpus couvre la période 1991-2000 et ne comporte que les documents contenant au moins un des mots de la famille "laïcité". Il compte 2837 articles, 3 000 000 de mots environ (et pèse 17 Mo environ). Ce corpus est disponible ici en 2 versions : Texte (noté désormais LeMonde10ansTxt) et Lemmatisé (noté désormais LeMonde10ansLemm). Pour chacune des ces versions, on dispose des indications suivantes sur chaque article : ANNEE, MOIS, RUBRIQUE et GENRE.
- Paramètres lexicométriques du LeMonde10ansTxt.
- Paramètres lexicométriques du LeMonde10ansLemm.
Données à utiliser
Formes de la famille laïcité
- LeMonde10ansTxt - Liste tous les mots couverts par l'expression régulière utilisée pour repérer tous les mots qui contenant la séquence "laïc" ou "laïq" [i.e. \b.*laï(c|q).*\b] : Famille laïcité.
- LeMonde10ansLemm - Liste tous les mots couverts par l'expression régulière utilisée pour repérer tous les mots qui contenant la séquence "laïc" ou "laïq" [i.e. \b.*laï(c|q).*\b] : Famille laïcité.
Evolution dans le temps
- Les graphiques qui suivent donnent une représentation de la ventilation et de l'évolution chronologique des mots sélectionnés sur la période utilisée : découpage en ANNEE.
- LeMonde10ansTxt - Graphique de ventilation n°1 (valeur relative) : laïcité
- LeMonde10ansTxt - Graphique de ventilation n°2 (valeur absolue) : laïcité
- LeMonde10ansTxt - Graphique de ventilation n°3 (valeur relative) : \b.*laï(c|q).*\b
- LeMonde10ansTxt - Graphique de ventilation n°4 (valeur absolue) : \b.*laï(c|q).*\b
- LeMonde10ansLemm - Graphique de ventilation n°5 (valeur relative) : laïcité
- LeMonde10ansLemm - Graphique de ventilation n°6 (valeur absolue) : laïcité
- LeMonde10ansLemm - Graphique de ventilation n°7 (valeur relative) : \b.*laï(c|q).*\b
- LeMonde10ansLemm - Graphique de ventilation n°8 (valeur absolue) : \b.*laï(c|q).*\b
- Les graphiques qui suivent donnent une représentation de la ventilation et de l'évolution chronologique des mots sélectionnés sur la période utilisée : découpage en MOIS.
- LeMonde10ansTxt - Graphique de ventilation n°9 (valeur relative) : laïcité
- LeMonde10ansTxt - Graphique de ventilation n°10 (valeur absolue) : laïcité
- LeMonde10ansTxt - Graphique de ventilation n°11 (valeur relative) : \b.*laï(c|q).*\b
- LeMonde10ansTxt - Graphique de ventilation n°12 (valeur absolue) : \b.*laï(c|q).*\b
- LeMonde10ansLemm - Graphique de ventilation n°13 (valeur relative) : laïcité
- LeMonde10ansLemm - Graphique de ventilation n°14 (valeur absolue) : laïcité
- LeMonde10ansLemm - Graphique de ventilation n°15 (valeur relative) : \b.*laï(c|q).*\b
- LeMonde10ansLemm - Graphique de ventilation n°16 (valeur absolue) : \b.*laï(c|q).*\b
Contexte
- LeMonde10ansTxt - Concordance n°1 : \b.*laï(c|q).*\b (regroupement par année, ordre du texte)
- LeMonde10ansTxt - Concordance n°2 : \b.*laï(c|q).*\b (regroupement par année, tri avant)
- LeMonde10ansTxt - Concordance n°3 : \b.*laï(c|q).*\b (regroupement par année, tri après)
- LeMonde10ansTxt - Concordance n°4 : \b.*laï(c|q).*\b (regroupement par rubrique, tri ordre du texte)
- LeMonde10ansTxt - Concordance n°5 : \b.*laï(c|q).*\b (regroupement par rubrique, tri avant)
- LeMonde10ansTxt - Concordance n°6 : \b.*laï(c|q).*\b (regroupement par rubrique, tri après)
- LeMonde10ansTxt - Concordance n°7 : \b.*laï(c|q).*\b (regroupement par genre, tri ordre du texte)
- LeMonde10ansTxt - Concordance n°8 : \b.*laï(c|q).*\b (regroupement par genre, tri avant)
- LeMonde10ansTxt - Concordance n°9 : \b.*laï(c|q).*\b (regroupement par genre, tri après)
- LeMonde10ansLemm - Concordance n°10 : \b.*laï(c|q).*\b (regroupement par année, tri ordre du texte)
- LeMonde10ansLemm - Concordance n°11 : \b.*laï(c|q).*\b (regroupement par année, tri avant)
- LeMonde10ansLemm - Concordance n°12 : \b.*laï(c|q).*\b (regroupement par année, tri après)
- LeMonde10ansLemm - Concordance n°13 : \b.*laï(c|q).*\b (regroupement par rubrique, tri ordre du texte)
- LeMonde10ansLemm - Concordance n°14 : \b.*laï(c|q).*\b (regroupement par rubrique, tri avant)
- LeMonde10ansLemm - Concordance n°15 : \b.*laï(c|q).*\b (regroupement par rubrique, tri après)
- LeMonde10ansLemm - Concordance n°16 : \b.*laï(c|q).*\b (regroupement par genre, tri ordre du texte)
- LeMonde10ansLemm - Concordance n°17 : \b.*laï(c|q).*\b (regroupement par genre, tri avant)
- LeMonde10ansLemm - Concordance n°18 : \b.*laï(c|q).*\b (regroupement par genre, tri après)
- LeMonde10ansTxt - Segments répétés [2] : (1) l'ensemble
- LeMonde10ansTxt - Segments répétés [2] : (2) avec la séquence "laï(c|q)"
- LeMonde10ansLemm - Segments répétés [2] : (3) l'ensemble
- LeMonde10ansLemm - Segments répétés [2] : (4) avec la séquence "laï(c|q)"
"Vers des constellations"
- Rappel important : chaque article du corpus utilisé ici contient un mot de la famille "laïcité". Dans cette section, on dispose des résultats du calcul de spécifité par partie, les partitions disponibles sur le corpus étant par exemple les partitions ANNEE, RUBRIQUE, GENRE. Ce calcul, fait avec Lexico3, permet d'obtenir une liste de mots qui portent soit un indice de spécificité positif[3] soit un indice de spécificité négatif[4], dans le premier cas, on aboutit en gros à une liste des mots spécifiques de la partie considérée et qui co-occurrent donc avec des mots de la famille \blaï(c|q).*\b, dans le second cas on obtient des mots qui n'apparaissent pas avec cette famille de mots.
- LeMonde10ansTxt : Spécificités par partie ([3]) (1) partition ANNEE : 1991, 1992, 1993, 1994, 1995, 1996, 1997, 1998, 1999, 2000.
- LeMonde10ansTxt : Spécificités par partie ([3]) (2) partition RUBRIQUE : AGE, ANA, ART, ASP, AUJ, CAM, CAR, COM, DEB, DER, ECO, EMP, EMS, ENT, ETR, EUR, EX1, EX2, FRA, HOR, IDE, IDF, ING, INI, INT, IPC, LIV, LOC, MAF, MCI, MDE, MIA, POC, POL, QUO, RTV, SCI, SOC, SPA, SPO, TEL, TEM, TER, TMR, UNE, VDR, VIS (cf Présentation du corpus pour un descriptif des rubriques).
- LeMonde10ansTxt : Spécificités par partie ([3]) (3) partition GENRE : BIBLIOGRAPHIE, BULLETIN, BULLETIN FRANCE, CARTE, CHRONIQUE, CHRONOLOGIE, CLES, CORRESPONDANCE, DOSSIER, ENCADRE, ENTRETIEN, GRAPHIQUE, ILLUSTRATION, INTEGRAL, MANCHETTE, NECROLOGIE, OPINION, ORGANIGRAMME, PHOTO, PORTRAIT, RECTIF, REVUE DE PRESSE, SIX CROCHETS, SUPPLEMENT, TABLEAU, VENTRE, SANS.
- LeMonde10ansLemm : Spécificités par partie ([3]) (1) partition ANNEE : 1991, 1992, 1993, 1994, 1995, 1996, 1997, 1998, 1999, 2000.
- LeMonde10ansLemm : Spécificités par partie ([3]) (2) partition RUBRIQUE : AGE, ANA, ART, ASP, AUJ, CAM, CAR, COM, DEB, DER, ECO, EMP, EMS, ENT, ETR, EUR, EX1, EX2, FRA, HOR, IDE, IDF, ING, INI, INT, IPC, LIV, LOC, MAF, MCI, MDE, MIA, POC, POL, QUO, RTV, SCI, SOC, SPA, SPO, TEL, TEM, TER, TMR, UNE, VDR, VIS (cf Présentation du corpus pour un descriptif des rubriques).
- LeMonde10ansLemm : Spécificités par partie ([3]) (3) partition GENRE : BIBLIOGRAPHIE, BULLETIN, BULLETIN FRANCE, CARTE, CHRONIQUE, CHRONOLOGIE, CLES, CORRESPONDANCE, DOSSIER, ENCADRE, ENTRETIEN, GRAPHIQUE, ILLUSTRATION, INTEGRAL, MANCHETTE, NECROLOGIE, OPINION, ORGANIGRAMME, PHOTO, PORTRAIT, RECTIF, REVUE DE PRESSE, SIX CROCHETS, SUPPLEMENT, TABLEAU, VENTRE, SANS.
Mêmes "parcours" en zoomant sur la rubrique "FRANCE" du corpus LM10ans "Laïcité"
- Dans ce qui suit CORPUS LM10ansFRA désigne le résultat de l'extraction dans le corpus LeMonde10ansTxt de tous les articles de la rubrique FRA (France)
- Paramètres lexicométriques du CORPUS LM10ansFRA.
- Principales caractéristiques lexicométriques de la partition MOIS sur la période : ce tableau présente de manière synthétique les mois disponibles sur la période 1991-2000, i.e. les mois pour lesquels il existe un article contenant un mot de la famille "laïcité".
- CORPUS LM10ansFRA - Graphique de ventilation n°1 (valeur relative) : laïcité
- CORPUS LM10ansFRA - Graphique de ventilation n°2 (valeur absolue) : laïcité
- CORPUS LM10ansFRA - Graphique de ventilation n°3 (valeur relative) : \b.*laï(c|q).*\b
- CORPUS LM10ansFRA - Graphique de ventilation n°4 (valeur absolue) : \b.*laï(c|q).*\b
- CORPUS LM10ansFRA - Concordance n°1 : \blaï(c|q).*\b (sans regroupement, tri ordre du texte)
- CORPUS LM10ansFRA - Concordance n°2 : \blaï(c|q).*\b (sans regroupement, tri avant)
- CORPUS LM10ansFRA - Concordance n°3 : \blaï(c|q).*\b (sans regroupement, tri après)
- CORPUS LM10ansFRA - Concordance n°4 : \blaï(c|q).*\b (regroupement par MOIS, tri ordre du texte)
- CORPUS LM10ansFRA - Concordance n°5 : \blaï(c|q).*\b (regroupement par MOIS, tri avant)
- CORPUS LM10ansFRA - Concordance n°6 : \blaï(c|q).*\b (regroupement par MOIS, tri après)
- CORPUS LM10ansFRA - Segments répétés [2] : (1) l'ensemble
- CORPUS LM10ansFRA - Segments répétés [2] : (2) avec la séquence "laï(c|q)"
Mêmes "parcours" en zoomant sur la rubrique "SOCIETE" du corpus LM10ans "Laïcité"
- Dans ce qui suit CORPUS LM10ansSOC désigne le résultat de l'extraction dans le corpus LeMonde10ansTxt de tous les articles de la rubrique SOC (Société)
- Paramètres lexicométriques du CORPUS LM10ansSOC.
- Principales caractéristiques lexicométriques de la partition MOIS sur la période : ce tableau présente de manière synthétique les mois disponibles sur la période 1991-2000, i.e. les mois pour lesquels il existe un article contenant un mot de la famille "laïcité".
- CORPUS LM10ansSOC - Graphique de ventilation n°1 (valeur relative) : laïcité
- CORPUS LM10ansSOC - Graphique de ventilation n°2 (valeur absolue) : laïcité
- CORPUS LM10ansSOC - Graphique de ventilation n°3 (valeur relative) : \b.*laï(c|q).*\b
- CORPUS LM10ansSOC - Graphique de ventilation n°4 (valeur absolue) : \b.*laï(c|q).*\b
- CORPUS LM10ansSOC - Concordance n°1 : \blaï(c|q).*\b (sans regroupement, tri ordre du texte)
- CORPUS LM10ansSOC - Concordance n°2 : \blaï(c|q).*\b (sans regroupement, tri avant)
- CORPUS LM10ansSOC - Concordance n°3 : \blaï(c|q).*\b (sans regroupement, tri après)
- CORPUS LM10ansSOC - Concordance n°4 : \blaï(c|q).*\b (regroupement par MOIS, tri ordre du texte)
- CORPUS LM10ansSOC - Concordance n°5 : \blaï(c|q).*\b (regroupement par MOIS, tri avant)
- CORPUS LM10ansSOC - Concordance n°6 : \blaï(c|q).*\b (regroupement par MOIS, tri après)
- CORPUS LM10ansSOC - Segments répétés [2] : (1) l'ensemble
- CORPUS LM10ansSOC - Segments répétés [2] : (2) avec la séquence "laï(c|q)"
[0] Le CORPUS FRANCE utilisé ici regroupe les rubriques "France" et "France-Société", le CORPUS SOCIETE contient les articles de la seule rubrique "Société", et le corpus INTERNATIONAL regroupe les articles de la rubrique "International"..
[1] L. Lebart, A. Salem, Statistique Textuelle, DUNOD, 1994 (p. 54).
[2] Le seuil de sélection des segments est celui fourni par défaut sous Lexico3, sa valeur est 10, i.e. on ne récupère ici que les segments dont la fréquence est supérieure ou égale à 10.
[3] spécificité positive - (sp) pour un seuil de spécificité fixé, une forme i et une partie j données, la forme i est dite spécifique positive de la partie j (ou forme caractéristique* de cette partie) si sa sous-fréquence est "anormalement élevée" dans cette partie. De façon plus précise, si la somme des probabilités calculées à partir du modèle hypergéométrique pour les valeurs égales ou supérieures à la sous-fréquence constatée est inférieure au seuil fixé au départ (cf note [1]).
[4] spécificité négative - (sp) pour un seuil de spécificité fixé, une forme i et une partie j données, la forme i est dite spécifique négative de la partie j si sa sous-fréquence est anormalement faible dans cette partie. De façon plus précise, si la somme des probabilités calculées à partir du modèle hypergéométrique pour les valeurs égales ou inférieures à la sous-fréquence constatée est inférieure au seuil fixé au départ (cf note [1]).
[LEMME-CATEGORIE] CORPUS FRANCE - Concordance n°7 : \blaï(c|q).*\b
[LEMME] CORPUS FRANCE - Concordance n°8 : \blaï(c|q).*\b
[FORME-CATEGORIE] CORPUS FRANCE - Concordance n°9 : \blaï(c|q).*\b
[0] Le CORPUS FRANCE utilisé ici regroupe les rubriques "France" et "France-Société", le CORPUS SOCIETE contient les articles de la seule rubrique "Société", et le corpus INTERNATIONAL regroupe les articles de la rubrique "International"..
[1] L. Lebart, A. Salem, Statistique Textuelle, DUNOD, 1994 (p. 54).
[2] Le seuil de sélection des segments est celui fourni par défaut sous Lexico3, sa valeur est 10, i.e. on ne récupère ici que les segments dont la fréquence est supérieure ou égale à 10.
[3] spécificité positive - (sp) pour un seuil de spécificité fixé, une forme i et une partie j données, la forme i est dite spécifique positive de la partie j (ou forme caractéristique* de cette partie) si sa sous-fréquence est "anormalement élevée" dans cette partie. De façon plus précise, si la somme des probabilités calculées à partir du modèle hypergéométrique pour les valeurs égales ou supérieures à la sous-fréquence constatée est inférieure au seuil fixé au départ (cf note [1]).
[4] spécificité négative - (sp) pour un seuil de spécificité fixé, une forme i et une partie j données, la forme i est dite spécifique négative de la partie j si sa sous-fréquence est anormalement faible dans cette partie. De façon plus précise, si la somme des probabilités calculées à partir du modèle hypergéométrique pour les valeurs égales ou inférieures à la sous-fréquence constatée est inférieure au seuil fixé au départ (cf note [1]).
http://pluriTAL.org | pluriTAL ©2016, INALCO, Paris Ouest, Paris 3