Lietuvių kalbos morfologiškai ir sintaksiškai anotuoti tekstynai
Author | Affiliation | |
---|---|---|
LT | ||
LT | ||
LT | ||
LT |
Date |
---|
2017 |
Pranešime pristatomi du anotuoti lietuvių kalbos tekstynai, parengti Vytauto Didžiojo universiteto Kompiuterinės lingvistikos centre (KLC). Anotuoti tekstynai – pagrindiniai ištekliai, be kurių neapsieinama plėtojant kalbos technologijas. Jie paprastai naudojami kitiems natūraliosios kalbos ištekliams ir įrankiams kurti tokiose srityse, kaip automatinio kalbos atpažinimo sistemos, automatizuotas vertimas ir pan. Morfologiškai anotuotas tekstynas MATAS rengtas 2002–2014 metais. Jį sudaro 1,6 mln. žodžių iš įvairių stilių tekstų. Tekstynas parengtas 1 mln. žodžių tekstyno, sudaryto 2006 m., pagrindu pritaikant statistinius modelius. Tekstynui anotuoti naudotas KLC parengtas morfologinis anotatorius. Tekstynas yra sužymėtas dviem formatais: KLC sukurtu formatu ir tarptautiniu TEI P5. Morfologinės pažymos, sudarytos remiantis MULTEXT-East formato (http://nl.ijs.si/ME/V4/msd/html/index.html) pavyzdžiu, kur kiekviena santrumpa atitinka konkrečią morfologinę kategoriją (nuo 2 iki 14). Sintaksiškai anotuotas tekstynas ALKSNIS, kaip aukso standartas tolesniems tyrimams ir ištekliams, parengtas 2016 m. Šį tekstyną sudaro 2355 sakiniai (apie 30 tūkst. žodžių), imti iš įvairių stilių tekstų. Tekstyno anotavimas paremtas automatinio morfologinio ir sintaksinio anotavimo principais, pritaikytas sintaksinių priklausomybių (angl. dependencies) modelis. Sintaksiniu analizatoriumi, kuris sukurtas KLC Haskell kalba, automatiškai sugeneruoti priklausomybių medžiai (angl. dependency trees) pateikiami grafiškai medžio principu, kur kiekviena medžio viršūnė atitinka sakinio žodį, skyrybos ženklą ar kitą sakinio vienetą. Priklausomybių ryšiai tarp žodžių yra nurodomi briaunomis, o prie kiekvieno žodžio sutrumpintai pateikiama morfologinė ir sintaksinė informacija. Sintaksinei informacijai nurodyti naudojama 18 sintaksinių pažymų ir jų variantų, pvz.,[...]