#!/usr/bin/perl # Mai 2017 Manying Zhang # Ce script prend la sortie de BàO2 fichier xml comme entrée, sortie le texte brut use utf8; binmode STDOUT, ":utf8"; open(FILE, "<:encoding(UTF-8)", "$ARGV[0]"); #-------------------------------------------- # le patron cherché ici est du type NOM ADJ"/ NOM PREP NOM; # Utilisation : perl extract-patron-treetagger_SF.pl 3234-surface-etiq-xmlrss.xml #-------------------------------------------- my $output0="resultat-treetagger-3208-NPN.txt"; if (!open (FILEOUT,">:encoding(utf-8)","$output0")) { die "Could not open $output0"}; my @lignes=; close(FILE); while (my $ligne=shift(@lignes)) { next $ligne if /^\n/; # à tester chomp $ligne; my $sequence=""; my $longueur=0; if ( $ligne =~ m/ NOM<\/data> [^<]+<\/data> ([^<]+)<\/data><\/element> PRP<\/data> [^<]+<\/data> ([^<]+)<\/data><\/element> NOM<\/data> [^<]+<\/data> ([^<]+)<\/data><\/element>/) { $sequence .=$1 ." $2" ." $3"; } print FILEOUT $sequence,"\n"; } close(FILEOUT);