Streda, apríl 21, 2010

Segmentácia textov pre slovenčinu

Program slúži na segmentáciu (rozdelenie textu na vety) slovenského textu. Na vstupe je daný text a súbor pravidiel, podľa ktorých sa má segmentovať, výstupom je text, v ktorom je každá veta na novom riadku.

Program je vytvorený v Jave a segmetácia je založená na knižnici Okapi Framework. Program používa pri segmentácii súbor pravidiel vo formáte SRX, ktorý je jazykovo špecifický. Môže obsahovať napríklad zoznam skratiek v danom jazyku. V projekte je použitý súbor pravidiel segment.srx, ktorý je súčasťou softwaru LanguageTool. Súbor obsahuje okrem iného aj pravidlá pre segmentáciu slovenčiny. Súbor je možné ďalej upravovať napríklad pomocou editoru Ratel.

Inštalácia: ./make.sh
Spustenie segmentácie: ./run.sh text.txt

0 komentárov: