Projet encadré : Anaylse Textuellelemonde 2019

Comment rechercher le patron de POS

  • Requête : trouver les patrons
  • 1) ADJ NOUN

    2) NOUN ADJ

    3) VERB DET NOUN

    4) NOUN PREP NOUN PREP

    Le patron de POS ne limite pas son statue morpho-syntaxique. Alors, on recherche le patron dans une phrase sans considérant leurs relations syntaxiques.

  • On utilise le script en language Python et le résultat de Talismane.
  • Talismane rend un résultat en format de TSV. Dans une ligne, on a l'information d'un lexique : le numéro de la position dans la phrase, le mot, le lemme, le POS, le numéro de son gouverneur. Et on peut distinguer la phrase par une ligne sauté entre des phrases. Alors, on a lu le texte comme des listes dans un liste. Par exemple, "je suis étudiant"

    [ [ 1 je Je PRON 2 ], [ 2 suis être V root ], [ 3 étudiant étudiant NOUN 2] ]

    On peut lire POS des mots dans une phrase comme liste[0][3], liste[1][3], liste[2][3]. On cherche d'abord le mot qui est convient de la premier POS dans la liste entier. Et le deuxième mot dans une partie de la phrase après du premier mot. Le numéro de la position nous aide de comprendre la position de lexiques. On a créé des fonctions indépendants pour chaque étape, en vue de de l'efficacité. Vous pouvez trouver les détails dans le script ci-dessous.

    Le script pour la requête de patron est ici. : python bao3.pl [fichier de talismane] [liste de POS comme: "V", "NC"].

    Comment interpréter le patron de POS

    fichiernombre de phraseADJ NN ADJV D NN P N P
    Une (3208)15,29612,620 (82 %)9,966 (65 %)12,348 (80 %)7,922 (51 %)
    Idées (3232)12,4637,922 (63 %)6,949 (55 %)8,925 (71 %)5,589 (44 %)
    Total27,75920,542 (74%)16,915(60 %)21,273(76 %)13,511 (48 %)
    (*la fréquence par phrase)

    Il y a un peu de différence de distrbution selon rubrique, mais la différence entre les patrons sont similaires. Selon ce résultat, l'adjectif se trouve plus devant le nom qu'après. Le patron "N P N P" est utilisé moins que les autres. Et la chaine du verbe, du determinant eu du nom est utilisé environ dans trois quart des phrases. Néanmoins, il n'est pas rassurant. On peut trouver un verbe, un déterminant et un nom dans la phrase suivant "Regarde ce que j'ai trouvé dans la maison!". Mais la chaine "Regarde, la, maison" ne convient pas au sens de cette phrase. Alors, on a comparé les derniers indice qui indiquent son gouverneur pour considérer leurs status morph-syntaxiques.

    Le script pour la requête de patron en considérant la relation morpho-syntaxique est ici : les trois relation morpho-syntaxiques l'on peut trouver dans ce script est sur mesure des requêtes ci-dessus.

  • ADJ N ou N ADJ
  • Dans le patron [ADJ N], l'adjectif modifié le nom est 1,958 dans 20,542 (9 %). Le reste est un adjectif et un nom dans une phrase mais qui ne se sont pas liés.

    Dans le patron [N ADJ], l'adjectif modifié le nom est 4,350 dans 16,915 (25 %). Le reste est un adjectif et un nom dans une phrase mais qui ne se sont pas liés. Et il n'y a pas d'ajectif qui gouverne le nom.

    En plus, il est interressant que 14 adjectifs sont indiqués comme le gouverneur de NOM : ( bonne Rennes, Grand nécropole, petite samedi, vrai départ, Grand résidence, Erotiques sexe, demi million, social démocratie (3 fois), riches mal (2 fois), historien fou, homosexuels livre ) On a besoin de les vérifier, mais il est possible que ce soit un erreur de Talismane.

  • V D N
  • Dans les cas de [V D N], il n'y a que 5,062 cas qui construisent un groupe verbal.

  • N P N P
  • [N P N P] est une patie de groupe syntaxique. Donc, on a vérifé le cas où le mot est gouverné par le mot précédent. Et, les cas où il compose d'une partie d'un groupe syntaxique sont 249 cas.

    Le résultat a une grande différence en comparant le résultat du requête de POS. Il nous montre l'importance de la considération de statue de morpho-syntaxique. Dans ce résultat, l'adjectif se place en général après le nom comme on a appris dans la grammaire scolaire.

    fichierNB de phraseADJ N (NP)N ADJ (NP)V D N (VP)N P N P (partie de NP)
    Une (3208)15,296979 (6 %)2,537 (16 %)2,889 (18 %)173 (1%)
    Idées (3232)12,463979 (7 %)1,828 (13 %)2,173 (17%)76(0,6 %)
    Total27,7591,958 (7 %)4,635 (15 %)5,062 (18 %)249(0,8 %)