Program slúži na segmentáciu (rozdelenie textu na vety) slovenského textu. Na vstupe je daný text a súbor pravidiel, podľa ktorých sa má segmentovať, výstupom je text, v ktorom je každá veta na novom riadku.
Program je vytvorený v Jave a segmetácia je založená na knižnici Okapi Framework. Program používa pri segmentácii súbor pravidiel vo formáte SRX, ktorý je jazykovo špecifický. Môže obsahovať napríklad zoznam skratiek v danom jazyku. V projekte je použitý súbor pravidiel segment.srx, ktorý je súčasťou softwaru LanguageTool. Súbor obsahuje okrem iného aj pravidlá pre segmentáciu slovenčiny. Súbor je možné ďalej upravovať napríklad pomocou editoru Ratel.
Inštalácia: ./make.sh
Spustenie segmentácie: ./run.sh text.txt
Inštalácia: ./make.sh
Spustenie segmentácie: ./run.sh text.txt


0 komentárov:
Zverejnenie komentára