# coding: utf-8 #segmenteur_jap.py - Camille Rey : segmenter du texte en japonais # prend en arguments : 1- le fichier contenant le texte à segmenter, en utf8 2- le chemin du fichier de sortie, avec le texte segmenté, en utf8 import sys from janome.tokenizer import Tokenizer t = Tokenizer() texte_original=open(sys.argv[1], 'r', encoding='UTF-8').read() texte_segmente=open(sys.argv[2], 'w', encoding='UTF-8') for token in t.tokenize(texte_original, wakati=True): texte_segmente.write(token+' ')