Tokenizer permet de segmenter un texte en tokens, puis en word-forms. Les tokens correspondent à des expressions régulières et les word-forms à des entrées lexicales compilées grâce à lexed. Un word-form est une concatétation de tokens pour un mot composé. L'ambiguïté entre mots simples et mots composés est représentée grâce à un graphe direct acyclique (DAG).
Téléchargement du programme tokenizer
tokenizer
Attention: vous avez besoin de lexed >= 4.3.3
pour compiler.
Pour installer sous unix taper
./configure [--prefix=<directory>] [--with-amalgam]
[--with-composition] (./configure --help pour aide)
make
make install
make clean
tokenizer -h
lexed [ -d <nom de répertoire> ] [ -p <nom du préfixe des
fichiers > ] <lexique1> <lexique2> ...
Les lexiques contiennent sur chaque ligne le mot suivi d'un caractère
séparateur (tabulation ou blanc par défaut), suivi de l'information
assortie au mot.
"." est le répertoire par défaut.
"lexicon" est le préfixe de nom de fichier par défaut.
Éditer tokenizer.ll
et recompiler
tokenizer [ -d <nom de répertoire> ] [ -p <nom du fichier> ] [ --encode ISO-8859-1 ] < inputfile > outputfile