An overview of Lithuanian internet media n-gram corpus

Bumbulienė, Ieva; Mandravickaitė, Justina; Boizou, Loic; Krilavičius, Tomas

Use this url to cite publication: https://hdl.handle.net/20.500.12259/36090

An overview of Lithuanian internet media n-gram corpus

Type of publication

Straipsnis konferencijos medžiagoje Scopus duomenų bazėje / Article in conference proceedings in Scopus database (P1a2)

Author(s)

Author	Affiliation
Bumbulienė, Ieva	Informatikos fakultetas / Faculty of Informatics	LT	Baltijos pažangiųjų technologijų institutas	LT
Mandravickaitė, Justina	Baltijos pažangiųjų technologijų institutas	LT	Vilniaus universitetas	LT
Boizou, Loic	Užsienio kalbų, lit. ir vert. s. katedra / Department of Foreign Language, Literary and Translation Studies	LT
Krilavičius, Tomas	Taikomosios informatikos katedra / Department of Applied Informatics	LT	Baltijos pažangių technologijų institutas, Vilnius	LT

Title

An overview of Lithuanian internet media n-gram corpus

[en]

Is part of

CEUR workshop proceedings [electronic resource]: SYSTEM 2017: proceedings of the symposium for Young Scientists in Technology, Engineering and Mathematics, Kaunas, Lithuania, April 28, 2017. Aachen : CEUR-WS, 2017, Vol. 1853

Date Issued

Date
2017

Publisher

Aachen : CEUR-WS

Is Referenced by

Scopus

Extent

p. 24-28

URI

URI
http://ceur-ws.org/Vol-1853/p05.pdf
https://hdl.handle.net/20.500.12259/36090

Field of Science

Keywords (en)

Abstract (en)

This paper describes construction and properties of the open 70 million words Lithuanian Internet media n-gram corpus. Due to copyright limitations often contemporary media based resources availability is restricted, while n-grams corpora (e.g., Google N-gram viewer/corpus) solve the problem. Lithuanian language is under-resourced, hence n-gram corpus of Lithuanian media is designed to contribute to publicly available ready-to-use lexical resources. In this paper we report corpus construction procedure, preprocessing, corpus statistics and possible areas of application.