Dainų tekstų anglų kalba analizė ir klasifikavimas
Veržukauskas, Laurynas |
Darbo tikslas – atlikti dainų tekstų autorystės nustatymo tyrimus panaudojant įvairius mašininio mokymo algoritmus. Darbe apžvelgti natūralios kalbos apdorojimo metodai, mašininio mokymo metodai ir tyrimų planas. Siekiant tyrimams atlikti greitai buvo sukurta tyrimų vykdymo platforma (naudojantis Apache Spark ir Deep Learning for Java). Tyrimai su pasirinktais duomenų rinkiniais ir mašininio mokymo algoritmais buvo atliekami perrenkant algoritmų paramterus. Darbo metu nustatyta, kad mažesnį klasių kiekį geriau klasifikuoja atraminių vektorių klasifikatorius, o dirbant su 30 klasių – k artimiausių kaimynų klasifikatorius.
Aim of this work - perform research on lyrics authorship attribution problem using machine learning methods. In order to aid in running experiments rapidly an experimentation platform has been developed (using Apache Spark and Deep Learning for Java). An author has analyzed methods natural language processing and machine learning algorithms. Experiments have been performed with datasets and machine learning algorithms by running grid search. Author has found that Support Vector Machine classifier works best with small number of classes, while with large number of classes - k Nearest Neighbors outperforms the rest.