# coding: utf-8

#segmenteur_jap.py - Camille Rey : segmenter du texte en japonais
# prend en arguments : 1- le fichier contenant le texte à segmenter, en utf8 2- le chemin du fichier de sortie, avec le texte segmenté, en utf8
import sys

from janome.tokenizer import Tokenizer
t = Tokenizer()
texte_original=open(sys.argv[1], 'r', encoding='UTF-8').read()
texte_segmente=open(sys.argv[2], 'w', encoding='UTF-8')
for token in t.tokenize(texte_original, wakati=True):
       texte_segmente.write(token+' ')