Teksto ir balso skaitmeniniai tyrimai, išteklių ir technologijų kūrimas bei taikymas

Name
Teksto ir balso skaitmeniniai tyrimai, išteklių ir technologijų kūrimas bei taikymas
City
Kaunas
Country
Lithuania
Pirmieji darbai šia tema VDU pradėti 1994 metais Humanitarinių mokslų fakultete įsteigus Kompiuterinės lingvistikos centrą (KLC) (http://donelaitis.vdu.lt), kuriame pradėtas kaupti skaitmeninis „Dabartinės lietuvių kalbos tekstynas“, sukurta Šventojo Rašto konkordancija, lygiagretūs verstinės literatūros tekstynai anglų-lietuvių ir čekų-lietuvių kalbomis. Vėliau rašytinės kalbos tekstyną papildė tekstai iš sakytinės kalbos. KLC vykdomi fundamentiniai lietuvių kalbos teksto struktūrų ir modelių tyrimai. Jie būtini kalbai skaitmeninti ir lietuvių kalbos technologijoms kurti. Ryškiausia kryptis yra tekstynų lingvistika: lietuvių kalbos leksikos ir stabiliųjų žodžių junginių analizė, lietuvių kalbos morfologijos ir sintaksės tyrimai teksto analizė ir vertimas, lietuvių šnekos anotavimo ir atpažinimo tyrimai, lietuvių kalbos fonetinių ypatybių ir fonotaktikos tyrimai.

Research and activities related to Lithuanian language resources started at VMU in 1994 when the Centre of Computational Linguistics (http://donelaitis.vdu.lt). The results comprise the big „Corpus of the Contemporary of the Lithuanian Language“(150 million running words of texts and its spoken component supplied by language specific tools: a corpus query system and collocation extraction tool, a lemmatiser, a multifunctional tool called „Morfolema“. The most recent tools comprise a system of morphological annotation and disambiguation, a tool for automatic textual function detection, the internet program of automatic accentuation, a music (mono singer) transcription „Solo Explorer“, parallel corpora are available on the CCL website as well as MT system from English into the Lithuanian language meant for translation of internet texts (http://vertimas.vdu.lt). The CCL hosts researchers that deal with both fundamental and applied research that is necessary for the computerization of the Lithuanian language. The most prominent trend is corpus-based and corpus-driven analysis of Lithuanian words and collocations, automated analysis of the Lithuanian grammar, computer-aided text analysis and translation, speech annotation and recognition, analysis of the phonetic and phonotactic characteristics of the Lithuanian speech.