Automatinis lietuviškų pastoviųjų žodžių junginių atpažinimas
Pastoviųjų junginių automatinis atpažinimas yra aktualus natūraliosios kalbos apdorojimo sistemų, kompiuterinės lingvistikos srityse. Nekreipiant dėmesio į pastoviuosius junginius natūraliosios kalbos sistemos gali pateikti nenatūralias išraiškas, o minimų junginių procentinė dalis kalboje yra didelė (~41% daugelyje kalbų) ir tai šią problemą daro dar labiau aktualia. Taigi, šiame darbe yra gvildenama automatinio pastoviųjų junginių atpažinimo problema – siekiama sukurti metodiką automatiniam lietuviškų pastoviųjų junginių atpažinimui ir realizuoti jos pagrindu veikiantį prototipą. Išanalizavus galimus metodus problemos sprendimui, nuspręsta atlikti eksperimentų su statistiniais, mašininio ir giliojo mokymo metodais, nes jų taikymas dažnais atvejais lemia lūkesčius tenkinančius rezultatus. Pirmiausia surinktas bazinis 70 mln. žodžių tekstynas iš naujienų portalo „delfi.lt“. Atlikti eksperimentai su 17 skirtingų 2-gramoms skirtų statistinių įverčių ir tyrimai su 3 klasifikatoriais – Naïve Bayes, Random Forest ir SVM. Klasifikatorių apmokymui naudotos statistinės (17 skirtingų įverčių) ir lingvistinės (morfologinė informacija) savybės. Taip pat eksperimentai atlikti su 4 skirtingais kategorinės informacijos kodavimo būdais ir klasių subalansavimo metodais (SMOTE kartu su ENN ir SMOTE su Tomek). Paruošti duomenys ir pritaikyti sekoms skirti metodai CRF ir RNN bi-LSTM. Tam, kad būtų apmokytas RNN, iš priminio tekstyno sugeneruoti GloVe tipo žodžių vektoriai. Apjungus geriausius CRF ir RNN modelius gautas F1-įvertis 49%. Šių modelių kombinacija panaudota pastoviųjų žodžių junginių atpažintuvo prototipe, taip pat apmokytas RNN (bi-LSTM) modelis kalbos dalių žymėjimui, kuris įtrauktas į prototipą. Atpažintuvo prototipas realizuotas kaip internetinė sistema ir API, aptartos prototipo tobulinimo galimybės.
Identification of Multiword Expressions is a significant problem in Natural Language Processing and Computer Linguistics. Natural language processing systems might return unnatural expressions if not enough attention is given for multiword expressions, for example, in the field of machine translation. Moreover, in most of the languages a part of multiword expressions varies about 41% or more. Thus, in this master project a problem of automatic identification of multiword expressions is discussed. The goal of the project is to develop a methodology for Lithuanian Multiword Expressions identification and build a prototype based on the methodology. It was decided to use Statistical, Machine Learning and Deep Learning methods due to their good performance on the similar tasks. A corpus of about 70 million words was collected from Lithuanian news portal “delfi.lt”. 17 different lexical association measures were calculated for bigrams and analyzed. Experiments were performed using 3 classifiers – Naïve Bayes, Random Forest and SVM. The training of these classifiers was done using statistical and morphological information of word expressions. In those experiments 4 different methods of categorical data encoding and 2 combinations of classes balancing methods – SMOTE with ENN and SMOTE with Tomek were included. Data was prepared for sequence models CRF and RNN (bi-LSTM). GloVe word vectors were generated to use for RNN training. After those experiments have been made, the best CRF and RNN models were combined and a 49% value of F1-Score was calculated. A combination of those models as well as trained part of speech tagger were used in a prototype of tool for automatic multiword expressions identification. This prototype was implemented as an internet system and API. Finally, the possible improvement points of the prototype were discussed.