The resource contains data used to estimate the amount of words in Lithuanian texts indexed by th... more The resource contains data used to estimate the amount of words in Lithuanian texts indexed by the selected Global Search Engines (GSE), namely Google (by Alphabet Inc.), Bing (by Microsoft Corporation), and Yandex (by ООО «Яндекс», Russia). For this purpose, a special list of 100 rare Lithuanian words (pivot words) with specific characteristics was compiled. Shorter lists for Belarusian, Estonian, Finnish, Latvian, Polish, and Russian languages were also compiled. Pivot words are words with special characteristics that are used to estimate the amount of words in corpora. Pivot words that were used for the estimation of the amount of words indexed by GSE should meet the following special criteria: 1) frequency of occurrence - 10-100; 2) do not coincide with regular words in another language; 3) longer than 6 letters; 4) not of international origin; 5) not foreign loanwords; 6) not proper names of any kind; 7) not headword forms; 8) with only basic Latin letters; 9) not specific to p...
1992 m. įkurto Kompiuterinės lingvistikos centro (KLC) bene geriausiai žinomas produktas yra Daba... more 1992 m. įkurto Kompiuterinės lingvistikos centro (KLC) bene geriausiai žinomas produktas yra Dabartinės lietuvių kalbos tekstynas (DLKT)[1]. Jis, pasak KLC įkūrėjos prof. Rūtos Petrauskaitės, jau tapęs lietuviškojo interneto dalimi. Kompiuterinės lingvistikos centro tyrėjai pirmiausia ėmėsi rengti būtent šį kiekvienos kalbos kompiuterizavimui svarbų išteklių, nes tik sukaupus tekstyną buvo galima siekti pagrindinio centro tikslo – parengtų išteklių (tekstynų, duomenynų) pagrindu kurti lietuvių kalbai reikalingas kalbos technologijas. Per 25 metus KLC sėkmingai įvykdyta daugiau nei 15 nacionalinių ir tarptautinių projektų, publikuota aktualių mokslinių straipsnių bei reikšmingų monografijų. Tarp svarbesnių KLC pasiekimų galima paminėti KLC dalyvavimą europinėje TELRI infrastruktūroje[2], dalyvavimą kuriant pirmąją lietuvių kalbai skirtą anglų–lietuvių mašininio (automatinio) vertimo sistemą[3], vadovavimą kuriant lietuvių kalbos sintaksinės ir semantinės analizės informacinę sistemą[4]. Šiuo metu KLC kartu su partneriais atstovauja Lietuvai tarptautinės kalbos technologijos infrastruktūros konsorciume CLARIN ERICHumanitarinių mokslų fakultetasKompiuterinės lingvistikos centrasLituanistikos katedraUžsienio kalbų, lit. ir vert. s. katedraVytauto Didžiojo universiteta
The resource contains data used to estimate the amount of words in Lithuanian texts indexed by th... more The resource contains data used to estimate the amount of words in Lithuanian texts indexed by the selected Global Search Engines (GSE), namely Google (by Alphabet Inc.), Bing (by Microsoft Corporation), and Yandex (by ООО «Яндекс», Russia). For this purpose, a special list of 100 rare Lithuanian words (pivot words) with specific characteristics was compiled. Shorter lists for Belarusian, Estonian, Finnish, Latvian, Polish, and Russian languages were also compiled. Pivot words are words with special characteristics that are used to estimate the amount of words in corpora. Pivot words that were used for the estimation of the amount of words indexed by GSE should meet the following special criteria: 1) frequency of occurrence - 10-100; 2) do not coincide with regular words in another language; 3) longer than 6 letters; 4) not of international origin; 5) not foreign loanwords; 6) not proper names of any kind; 7) not headword forms; 8) with only basic Latin letters; 9) not specific to p...
1992 m. įkurto Kompiuterinės lingvistikos centro (KLC) bene geriausiai žinomas produktas yra Daba... more 1992 m. įkurto Kompiuterinės lingvistikos centro (KLC) bene geriausiai žinomas produktas yra Dabartinės lietuvių kalbos tekstynas (DLKT)[1]. Jis, pasak KLC įkūrėjos prof. Rūtos Petrauskaitės, jau tapęs lietuviškojo interneto dalimi. Kompiuterinės lingvistikos centro tyrėjai pirmiausia ėmėsi rengti būtent šį kiekvienos kalbos kompiuterizavimui svarbų išteklių, nes tik sukaupus tekstyną buvo galima siekti pagrindinio centro tikslo – parengtų išteklių (tekstynų, duomenynų) pagrindu kurti lietuvių kalbai reikalingas kalbos technologijas. Per 25 metus KLC sėkmingai įvykdyta daugiau nei 15 nacionalinių ir tarptautinių projektų, publikuota aktualių mokslinių straipsnių bei reikšmingų monografijų. Tarp svarbesnių KLC pasiekimų galima paminėti KLC dalyvavimą europinėje TELRI infrastruktūroje[2], dalyvavimą kuriant pirmąją lietuvių kalbai skirtą anglų–lietuvių mašininio (automatinio) vertimo sistemą[3], vadovavimą kuriant lietuvių kalbos sintaksinės ir semantinės analizės informacinę sistemą[4]. Šiuo metu KLC kartu su partneriais atstovauja Lietuvai tarptautinės kalbos technologijos infrastruktūros konsorciume CLARIN ERICHumanitarinių mokslų fakultetasKompiuterinės lingvistikos centrasLituanistikos katedraUžsienio kalbų, lit. ir vert. s. katedraVytauto Didžiojo universiteta
Uploads
Papers by Andrius Utka