Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Language in the Digital Age

2013

White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária Šimková Radovan Garabík Katarína Gajdošová Michal Laclavík Slavomír Ondrejovič Jozef Juhár Ján Genči Karol Furdík Helena Ivoríková Jozef Ivanecký White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária Šimková Jazykovedný ústav Ľ. Štúra SAV Radovan Garabík Jazykovedný ústav Ľ. Štúra SAV Katarína Gajdošová Jazykovedný ústav Ľ. Štúra SAV Michal Laclavík Ústav informatiky SAV Slavomír Ondrejovič Jazykovedný ústav Ľ. Štúra SAV Jozef Juhár Technická univerzita v Košiciach Ján Genči Technická univerzita v Košiciach Karol Furdík Technická univerzita v Košiciach Helena Ivoríková Studia Academica Slovaca UK Jozef Ivanecký European Media Laboratory Georg Rehm, Hans Uszkoreit (redakcia, editors) PREDHOVOR PREFACE Táto biela kniha je súčasťou série, ktorá propaguje is white paper is part of a series that promotes najnovšie poznatky a potenciál jazykových technológií. knowledge about language technology and its poten- Je určená novinárom, politikom, jazykovým spoločnostiam, tial. It addresses journalists, politicians, language comučiteľom a iným. V európskych krajinách majú jazykové munities, educators and others. e availability and technológie rozličnú úroveň aj využitie. Z toho dôvodu use of language technology in Europe varies between sú aj opatrenia potrebné na ďalšiu podporu výskumu languages. Consequently, the actions that are required a vývoja jazykových technológií pre každý jazyk odlišné. to further support research and development of lan- Požadované opatrenia závisia od mnohých faktorov, guage technologies also differ. e required actions akými sú napríklad zložitosť daného jazyka či veľkosť depend on many factors, such as the complexity of a jazykovej komunity. given language and the size of its community. META-NET, sieť excelentnosti, financovaná z fondov META-NET, a Network of Excellence funded by the Európskej komisie, vypracovala v tejto sérii bielych European Commission, has conducted an analysis of kníh (s. 85) analýzu súčasných jazykových zdrojov current language resources and technologies in this a technológií. Analýza zahŕňala okrem 23 oficiálnych white paper series (p. 85). e analysis focuses on the európskych jazykov aj iné dôležité národné i regionálne 23 official European languages as well as other impor- jazyky Európy. Výsledky analýzy poukázali na značné tant national and regional languages in Europe. e re- nedostatky v technologickej podpore a na medzery sults of this analysis suggest that there are tremendous vo výskume pre každý jazyk. Podrobnejšia expertná deficits in technology support and significant research analýza a zhodnotenie momentálnej situácie pomôže gaps for each language. e given detailed expert anal- maximalizovať efektivitu ďalších výskumov. ysis and assessment of the current situation will help Od novembra 2011 META-NET pozostáva z 54 výskumnýchmaximise the impact of future research. centier v 33 krajinách Európy (s. 81). META-NET As of November 2011, META-NET consists of 54 spolupracuje so zainteresovanými stranami z oblasti research centres in 33 European countries (p. 81). ekonómie (sovérové spoločnosti, poskytovatelia technológiíMETA-NET is working with stakeholders from econa používatelia), z oblasti vládnych agentúr, výskumných omy (soware companies, technology providers and organizácií, nevládnych organizácií, jazykových spoločenstievusers), government agencies, research organisations, a európskych univerzít. META-NET spoločne s týmito non-governmental organisations, language communi- komunitami vytvára jednotnú technologickú víziu a ties and European universities. Together with these strategický plán výskumu pre multilingválnu Európu communities, META-NET is creating a common tech- 2020. nology vision and strategic research agenda for multilingual Europe 2020. III META-NET – office@meta-net.eu – http://www.meta-net.eu Autori tohto dokumentu ďakujú autorom Bielej knihy pre nemčinu za povolenie používať vybrané jazykovo nezávislé materiály z ich dokumentu [1]. e authors of this document are grateful to the authors of the White Paper on German for permission to re-use selected language-independent materials from their document [1]. Táto biela kniha bola financovaná prostredníctvom Siedmeho e development of this White Paper has been funded by the rámcového programu a Programu podpory politiky v oblasti Seventh Framework Programme and the ICT Policy Support informačných a komunikačných technológií Európskej Programme of the European Commission under the contracts komisie na základe dohôd T4ME (Grantová dohoda 249119), T4ME (Grant Agreement 249119), CESAR (Grant Agree- CESAR (Grantová dohoda 271022), ment 271022), METANET4U (Grant Agreement 270893) METANET4U (Grantová dohoda 270893) a META-NORD (Grantová and META-NORD (Grant Agreement 270899). dohoda 270899). IV OBSAH CONTENTS SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU 1 Zhrnutie 1 2 Ohrozenie našich jazykov: Výzva pre jazykové technológie 3 2.1 Jazykové hranice spomaľujú európsku informačnú spoločnosť . . . . . . . . . . . . . . . . . . . . 4 2.2 Naše jazyky v ohrození . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 2.3 Jazykové technológie sú kľúčovými technológiami . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2.4 Príležitosti pre jazykové technológie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2.5 Výzvy pre jazykové technológie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 2.6 Osvojovanie si jazyka . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 3 Slovenčina v európskej informačnej spoločnosti 8 3.1 Všeobecné fakty . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Špecifiká slovenčiny . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 3.3 Slovenčina na internete . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 3.4 Slovenčina ako cudzí jazyk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 3.5 Slovenský národný korpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 4 Jazykové technológie na podporu slovenčiny 8 17 4.1 Architektúra aplikácií . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 4.2 Základné aplikačné oblasti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 4.3 Ďalšie aplikačné oblasti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 4.4 Jazykové technológie vo vzdelávaní . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 4.5 Štátne programy a iniciatívy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 4.6 Dostupnosť nástrojov a zdrojov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 4.7 Porovnanie jazykov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 4.8 Závery . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 5 O META-NET-e 37 THE SLOVAK LANGUAGE IN THE DIGITAL AGE 1 Executive Summary 39 2 Languages at Risk: a Challenge for Language Technology 41 2.1 Language Borders Hold back the European Information Society . . . . . . . . . . . . . . . . . . 42 2.2 Our Languages at Risk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 2.3 Language Technology is a Key Enabling Technology . . . . . . . . . . . . . . . . . . . . . . . . 42 2.4 Opportunities for Language Technology . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 2.5 Challenges Facing Language Technology . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 2.6 Language Acquisition in Humans and Machines . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 3 Slovak in the European Information Society 46 3.1 General Facts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 3.2 Particularities of the Slovak Language . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 3.3 Slovak on the Internet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 3.4 Slovak as a Foreign Language . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 3.5 Slovak National Corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 4 Language Technology Support for Slovak 55 4.1 Application Architectures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 4.2 Core Application Areas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 4.3 Other Application Areas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 4.4 Language Technology in Education . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 4.5 National Projects and Initiatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 4.6 Availability of Tools and Resources . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 4.7 Cross-language Comparison . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 4.8 Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 5 About META-NET 74 A Zoznam literatúry -- References 75 B Členovia META-NET-u -- META-NET Members 81 C Séria bielych kníh META-NET-u -- The META-NET White Paper Series 85 1 ZHRNUTIE Európa sa počas posledných 60 rokov stala významnou musíme systematicky analyzovať špecifiká všetkých politickou a ekonomickou silou, kultúrne a jazykovo európskych jazykov, ako aj stav súčasných jazykových je však stále veľmi rôznorodá. To znamená, že od technológií. Navrhnuté riešenia budú mostom medzi Portugalska po Poľsko a od Talianska po Island je bežná jazykmi. komunikácia medzi občanmi Európy podobne ako komunikácia v oblasti podnikania a politiky neustále komplikovaná kvôli jazykovým bariéram. Európske Jazykové technológie sú kľúčom do budúcnosti inštitúcie minú ročne približne miliardu eur na preklady inojazyčných textov a na tlmočenie. Nemuselo by to tak Rozvoj jazykových technológií pre slovenčinu a byť, ak by moderné jazykové technológie a lingvistický počítačového spracovania slovenského jazyka v výskum pomohli prekonať jazykové hranice. Ak vhodne porovnaní so susednými krajinami značne zaostáva. využijeme inteligentné zariadenia a aplikácie, budeme Napríklad v Českej republike sa výskum spracovania môcť navzájom diskutovať alebo obchodovať a rôznosť prirodzeného jazyka realizuje od polovice 90. rokov jazykov nebude pre nás prekážkou. minulého storočia a zároveň tu majú jazykové technológie silnú komerčnú podporu. Jazykové technológie predstavujú mosty Za prvý významný krok rozvoja jazykových technológií sa na Slovensku považuje vybudovanie Slovenského národného korpusu na začiatku 21. storočia. Jedným zo spôsobov, ako prekonať jazykové bariéry, Prvé veľké projekty zamerané na jazykové technológie je naučiť sa niekoľko cudzích jazykov. Zvládnuť 23 a zdroje na Slovensku boli osobitne schválené a oficiálnych jazykov členských štátov EÚ a približne financované vládou. 60 ďalších európskych jazykov je však málo Národného korpusu sloenského jazyka a elektronizácia pravdepodobné. Vďaka technologickej podpore už jazykovedného výskumu v rokoch 2002 – 2006 a dokážeme viesť politické aj ekonomické rokovania, ako Komplexné spracovanie sloenského jazyka a jeho aj napredovať vo výskume. elektronizácia Riešením mnohojazyčnosti je vybudovanie kľúčových Obidva projekty sa realizovali v Jazykovednom ústave technológií, ktoré európskym činiteľom ponúknu Ľudovíta Štúra Slovenskej akadémie vied. obrovské výhody, a to nielen v rámci spoločného ďalej pokračoval pod názvom Budovanie Sloenského európskeho trhu, ale aj pri obchodných vzťahoch národného korpusu a elektronizácia jazykovedného s krajinami tretieho sveta, najmä s krajinami výskumu na Sloensku (druhá etapa) na základe zmluvy rozvíjajúcich sa ekonomík. Aby sme dosiahli tento cieľ o jeho spolufinancovaní medzi Ministerstvom školstva a zároveň zachovali kultúrnu a jazykovú rozmanitosť, SR, Ministerstvom kultúry SR a SAV. na Išlo o projekty Vybudovanie účely jazykovedného výskumu. Projekt 1 spracovaní Dlhodobým cieľom META-NET-u je poskytnúť slovenského jazyka bol projekt APD – Automatický kvalitné jazykové technológie všetkým jazykom, aby prepis diktátu pre Ministersto spraodliosti Sloenskej sa napriek kultúrnym rozdielom dosiahla politická republiky koordinovaný Oddelením analýzy a syntézy a ekonomická jednota. Technologické nástroje pomôžu reči Ústavu informatiky Slovenskej akadémie vied v prekonať existujúce bariéry. spolupráci s Katedrou elektroniky a multimediálnych strany (z oblasti politiky, vedy, obchodu a pod.) by komunikácií Technickej univerzity v Košiciach, sa mali snažiť o zjednotenie. Ďalším významným projektom v Všetky zainteresované realizovaný v rokoch 2009–2011. Cieľom bolo vytvoriť systém na prepis hovoreného slovenského jazyka, špeciálne v oblasti súdnictva. Projekt bol financovaný Jazykové technológie pomáhajú zjednotiť Európu Ministerstvom spravodlivosti SR. V súčasnosti sa systém začína využívať v pilotnej prevádzke na súdoch Séria bielych kníh dopĺňa aj ďalšie aktivity META- Slovenskej republiky. NET-u (pozri prílohu). Aktuálne informácie, napríklad Tieto projekty sú na Slovensku doteraz jedinou najnovšie vízie alebo strategický výskumný program významnou META-NET-u, sú dostupné na oficiálnej webovej iniciatívou v oblasti počítačového spracovania slovenčiny. Ako uvádza naša séria bielych stránke META-NET-u: http://www.meta-net.eu. kníh, úroveň výskumu a stavu jazykových technológií je na Slovensku v porovnaní s inými európskymi krajinami oveľa nižšia. Preto je nevyhnutné zvýšiť úroveň jazykových technológií pre slovenčinu. 2 2 OHROZENIE NAŠICH JAZYKOV: VÝZVA PRE JAZYKOVÉ TECHNOLÓGIE V poslednej dekáde sme svedkami digitálnej vytvorenie žurnalistických a bibliografických revolúcie, ktorá má značný vplyv na komunikáciu príručiek prinieslo zlepšenie kvality a dostupnosti a spoločnosť. tlačeného materiálu; Nedávne pokroky v digitálnych a sieťových komunikačných technológiách sa niekedy vytvorenie rôznych médií, prirovnávajú ku Gutenbergovmu vynájdeniu kníhtlače. noviny, rozhlas, televízia a i. uspokojilo rozmanité Ako nám môže táto analógia konkrétne priblížiť komunikačné potreby. budúcnosť európskej informačnej spoločnosti a našich jazykov? akými sú knihy, Za posledných dvadsať rokov pomohli informačné technológie automatizovať a uľahčiť celý rad procesov: Sme svedkami digitálnej revolúcie, ktorú môžeme prirovnať ku Gutenbergovmu vynálezu kníhtlače DTP sovér nahradil strojopis a sadzbu; prezentačný sovér, ako napríklad Open/LibreOffice Impress alebo Microso PowerPoint nahradili spätný projektor; Po Gutenbergovom vynáleze nastal skutočný prelom v komunikácii a výmene poznatkov vďaka takým snahám, ako bol napr. Lutherov preklad Biblie do zrozumiteľného jazyka. V ďalších storočiach nastal rozvoj kultúrnych postupov, ktoré rozšírili výmenu poznatkov a zefektívnili spracovávanie jazyka. Zmeny, ktoré nastali: rýchlejšie ako prostredníctvom faxu; SIP telefónia alebo Skype umožňujú internetové volania a virtuálne stretnutia; efektívne kódovanie zvukových a obrazových súborov uľahčuje výmenu multimediálneho obsahu; nástroje na vyhľadávanie umožňujú na báze ortografické a gramatické ustálenie významnejších jazykov zasielanie a prijímanie dokumentov e-mailom je umožnilo rýchle rozšírenie nových vedeckých a intelektuálnych ideí; rozvoj oficiálnych jazykov pomohol obyvateľom komunikovať v rámci určitých (často politických) hraníc; kľúčových slov efektívny prístup na webové stránky; on-line služby, ako napríklad Google Translate, ponúkajú rýchle, aj keď približné preklady; platformy sociálnych médií (Pokec, Facebook, Twitter, Google a i.) uľahčujú spoluprácu a sprístupnenie informácií. vyučovanie a preklad jazykov umožnil výmenu Spomenuté nástroje a aplikácie ľuďom pomáhajú, no poznatkov medzi jazykmi; v súčasnosti nedokážu dostatočne pokryť potreby 3 informačnej v angličtine. Situácia sa však medzičasom modifikovala spoločnosti, v ktorej je neustály tok informácií a tovaru. – rozrástlo sa množstvo inojazyčného on-line obsahu multilingválnej modernej európskej (najmä ázijského a arabského). 2.1 JAZYKOVÉ HRANICE SPOMAĽUJÚ EURÓPSKU INFORMAČNÚ SPOLOČNOSŤ V súčasnosti nemôžeme presne odhadnúť, aká bude informačná spoločnosť o niekoľko rokov. Táto digitálna priepasť, ktorá je zapríčinená jazykovými bariérami, prekvapivo nezískala dostatok pozornosti na verejnosti. Digitálny svet si kladie naliehavú otázku: „Ktorým európskym jazykom sa bude dariť v zosieťovanej informačnej a znalostnej spoločnosti a ktoré zaniknú?“ Je však veľmi pravdepodobné, že revolúcia v komunikačných technológiách spojí ľudí, ktorí hovoria rozličnými 2.2 NAŠE JAZYKY V OHROZENÍ jazykmi, napriek jazykovým bariéram. Momentálne Kníhtlač značne prispela k výmene informácií v Európe, môžeme cítiť istý tlak na ľudí, aby sa učili cudzie ale napomohla tiež zániku mnohých európskych jazyky, a najmä na ľudí, ktorí by mali vytvárať nové jazykov. V regionálnych a menšinových jazykoch sa technologické aplikácie na zabezpečenie vzájomného dokumenty rozmnožovali zriedkakedy. dorozumenia. V aktuálnej globálnej ekonomike bolo, že mnohé jazyky, ako napríklad rómsky alebo a informačnom priestore sa denne konfrontujeme rusínsky, sa zredukovali viacmenej len na ústne podanie, s narastajúcim počtom jazykov, hovoriacimi a novými čo obmedzovalo ich kontinuálne osvojenie a rozšírenie. témami. Bude mať internet podobný vplyv aj na naše jazyky? Súčasná popularita sociálnych médií Výsledkom (Wikipedia, Facebook, Twitter, YouTube, Pokec, Google+) je len špičkou tohto pokrokového ľadovca. V globálnej ekonomike a informačnom priestore sa denne konfrontujeme s rôznymi jazykmi, hovoriacimi a novými témami Rôznorodosť jazykov v Európe je súčasťou kultúrneho bohatstva Európy Približne 80 jazykov je časťou najvzácnejšieho a najdôležitejšieho kultúrneho bohatstva Európy. Množstvo európskych jazykov je takisto nevyhnutnou Dnes dokážeme prenášať gigabajty textu po celom svete súčasťou jej sociálneho úspechu [3]. Zatiaľ čo sa za pár sekúnd, hoci sú v jazyku, ktorému nerozumieme. budú populárne jazyky ako angličtina a španielčina Podľa nedávnej správy, ktorú vydala Európska komisia, v rozvíjajúcej sa digitálnej spoločnosti a na trhu 57 % používateľov internetu platí za tovar a služby určite udržiavať, mnohé európske jazyky sa vynechajú v cudzom jazyku (angličtina je najbežnejšia, hneď za ňou z digitálnych komunikácií a pre internetovú spoločnosť nasleduje francúzština, nemčina a španielčina). 55 % sa stanú irelevantné. Takýto vývoj by oslabil európsku používateľov číta obsah v cudzom jazyku, pričom iba stabilitu, pretože by bol v rozpore s cieľom zabezpečiť 35 % používa iný jazyk na písanie e-mailov alebo rovnaké postavenie každého európskeho občana bez posielanie komentárov na webe [2]. Pred niekoľkými ohľadu na jazykovú príslušnosť. rokmi mohla byť angličtina internetová lingua franca, o multilingvizme sa uvádza, že jazyky sú médiom pretože prevažná väčšina materiálov na webe bola uplatňovania základných ľudských práv, ako je právo V správe Unesca 4 na vyjadrenie politického názoru, vzdelanie a účasť aplikačného rámca. Účelom bielej knihy META-NET- na spoločenskom živote [4]. u je preskúmať stav základných technológií všetkých európskych jazykov. 2.3 JAZYKOVÉ TECHNOLÓGIE SÚ KĽÚČOVÝMI TECHNOLÓGIAMI Aby si Európa udržala svoju pozíciu na čele inovatívneho pokroku, mali by sa jazykové technológie adaptovať dôkladne a cenovo dostupne na všetky európske jazyky a zároveň sa pevne integrovať do kľúčových sovérových prostredí. Bez jazykových V minulosti sa najviac investovalo do jazykového technológií Európa nedosiahne efektívne, interaktívne, vzdelávania a prekladu. Podľa niektorých odhadov sa multimediálne a viacjazyčné používateľské prostredie. napríklad v roku 2008 v Európe minulo na preklad, interpretáciu, sovérovú lokalizáciu a internetovú globalizáciu približne 8,4 miliardy eur, pričom sa rátalo Európa potrebuje vhodné a cenovo dostupné jazykové technológie pre všetky európske jazyky s 10-percentným nárastom ročne [5]. Faktom je, že tieto finančné prostriedky napriek tomu nestačia na uspokojenie súčasných ani budúcich potrieb. Najlepšie riešenie pre dostatočný výskum používania jazyka je výber technológie, ktorú používame aj na riešenie problémov v doprave, energetike, sociálnej oblasti a pod. Digitálne jazykové technológie (v písanom aj hovorenom diskurze) pomáhajú ľuďom spolupracovať, podnikať, sprístupňovať vedomosti a zúčastňovať sa na sociálnych a politických diskusiách bez ohľadu na jazykové bariéry alebo počítačové zručnosti. Sú užitočné v prípade: 2.4 PRÍLEŽITOSTI PRE JAZYKOVÉ TECHNOLÓGIE V oblasti tlače bolo technologickým zlomom vynájdenie tlačiarne. Ľudia sa namáhali pri prácnom vyhľadávaní, čítaní, prekladaní a sumarizácii poznatkov. Čakali sme až na Edisona, ktorý zachytil hovorenú reč, a jeho technológia vytvárala stále iba analógové kópie. Digitálne jazykové technológie dokážu vytvoriť automatický preklad, vygenerovať obsah, spracúvať informácie a riadiť vedomostný manažment, vyhľadávania informácií pomocou internetového ktorý je aplikovateľný na všetky európske jazyky. vyhľadávača, Jazykové technológie môžu tiež podporovať rozvoj kontroly pravopisu a gramatiky v textových procesoroch, odporúčania produktu v internetovom obchode, používateľských rozhraní pre domácu elektroniku, zariadenia, dopravné prostriedky, počítače či roboty. Hoci existuje mnoho takýchto prototypov, komerčné a priemyselné aplikácie sú stále iba v prvotných počúvania inštrukcií automobilového navigačného štádiách rozvoja. systému, a rozvoji vytvorili skutočný priestor na nové možnosti. prekladu webových stránok prostredníctvom on- Povedzme strojový preklad je už primerane presný line služieb. v špecifických oblastiach; experimentálne aplikácie Nedávne úspechy vo výskume poskytujú mnohojazyčnú informáciu a vedomostný Jazykové technológie sa skladajú z niekoľkých manažment, ako aj generovanie obsahu v mnohých základných aplikácií, európskych jazykoch. ktoré sú bázou väčšieho 5 Ako pri väčšine technológií, aj prvé jazykové Napokon, jedno odvetvie výskumu predstavuje aj používateľské používanie jazykových technológií pri záchranných rozhrania a dialógové systémy, boli vyvinuté pre akciách v oblastiach postihnutých katastrofami, kde vysoko špecializované domény a často vykazujú ich použitie môže byť otázkou života a smrti, napríklad obmedzenú použiteľnosť. Ale v oblasti vzdelávania budúce inteligentné roboty s mnohorakými jazykovými a zábavného priemyslu sú obrovské príležitosti schopnosťami majú potenciál zachraňovať ľudské na integráciu jazykových technológií do hier, životy. aplikácie, ako napríklad hlasové edukačných pomôcok, simulačných prostredí, prípadne vzdelávacích programov. Mobilné informačné služby, sovéry na počítačovú podporu učenia sa jazyka, elearningové prostredia, nástroje na sebahodnotenie a sovéry na detekciu plagiátorstva sú len zlomkom možností, v ktorých zohrávajú jazykové technológie dôležitú úlohu. Popularita sociálnych aplikácií ako Twitter, Pokec alebo Facebook naznačuje potrebu sofistikovanejších jazykových technológií, ktoré dokážu monitorovať príspevky, sumarizovať diskusie, navrhnúť názorové trendy, detegovať emocionálne reakcie, identifikovať porušenie autorských práv alebo vystopovať zneužitie diela. 2.5 VÝZVY PRE JAZYKOVÉ TECHNOLÓGIE Hoci jazykové technológie za posledné roky napredujú, súčasné tempo technologického vývoja a inovácie produktov je pomalé. Jazykové technológie so širokým využitím (napríklad kontrola pravopisu a gramatiky v textových editoroch) jestvujú v monolingválnej forme, a preto sú dostupné len pre hŕstku jazykov. On-line služby, strojových prekladov, prinášajú so sebou mnohé ťažkosti v situáciách, v ktorých sú potrebné veľmi presné a úplné preklady. Jazykové technológie môžu pomôcť prekonať bariéry lingvistickej rozmanitosti ako sú profesionálne aplikácie Vzhľadom na zložitosť ľudského jazyka a modelovanie nášho jazyka do sovéru je následné testovanie pridlhé a nákladné a vyžaduje si neustálu finančnú podporu. Ak si chce Európa zachovať svoje Jazykové technológie predstavujú pre Európsku úniu obrovskú príležitosť. Môžu pomôcť pri problematike viacjazyčnosti v Európe – keďže obchodná sféra, rôzne organizácie či školy sú charakteristické svojou národnostnou rozmanitosťou. Jazykové technológie postavenie priekopníka v prijímaní technologických výziev viacjazyčnej jazykovej komunity, musí neustále predkladať nové metódy na urýchlenie technologického rozvoja, napríklad progres v oblasti počítačovej technológie a techník ako crowdsourcing. môžu pomôcť prekonať jazykové bariéry vďaka slobodnému a otvorenému používaniu rozličných jazykov. Pri pohľade na budúcnosť nám zavedenie Súčasné tempo technologického vývoja je príliš pomalé inovatívnych a multilingválnych jazykových technológií pre Európu takisto môže pomôcť v komunikácii s celosvetovými partnermi a s ich viacjazyčnými spoločenstvami. Jazykové technológie možno vnímať 2.6 OSVOJOVANIE SI JAZYKA aj ako „podporné“ prostriedky, ktoré prekonávajú Aby sme si vedeli lepšie predstaviť prácu počítača jazykovú rozmanitosť a zbližujú jazykové spoločenstvá. s osvojovaním si jazyka, stručne zhrnieme spôsoby, 6 akými si ľudia osvojujú prvý a druhý jazyk. Potom si pravopisu v textových procesoroch a služby ako Google načrtneme, ako si jazyk osvojujú jazykové technológie. Hľadať na webu (oficiálny názov služby) a Google Ľudia si jazyk osvojujú dvoma rozličnými spôsobmi. Translate sú závislé od štatistických prístupov. Veľkou V prvom prípade sa dieťa učí jazyk tak, že počúva výhodou štatistiky je, že stroj sa učí veľmi rýchlo, hoci rozhovory medzi hovoriacimi v danom jazyku. kvantita nie vždy korešponduje s kvalitou. Presnejšie, jazykovými vzormi sú preňho používatelia Systémy založené na pravidlách sú druhým najväčším jazyka, ako napríklad rodičia, súrodenci alebo iní typom jazykových technológií. Vysoko špecializovaní rodinní príslušníci. Dieťa začína produkovať prvé slová odborníci z oblasti lingvistiky, počítačovej lingvistiky a krátke frázy vo veku približne dvoch rokov. Deje sa a počítačovej vedy kódujú gramatické analýzy (pravidlá to vďaka špeciálnej genetickej dispozícii imitovať zvuky prekladu) a zostavujú zoznam slovnej zásoby (lexikóny). a následne si odôvodniť to, čo počuje. Vytvorenie týchto systémov je časovo náročné a prácne. Učenie sa druhého jazyka zvyčajne vyžaduje oveľa Niektoré z týchto hlavných systémov strojového viac úsilia, lebo dieťa už nie je súčasťou jazykového prekladu založených na pravidlách sa rozvíjajú už viac spoločenstva rodených hovoriacich. V školskom než 20 rokov. Ich výhodou je, že odborní pracovníci veku sa cudzie jazyky väčšinou osvojujú učením môžu systematickejšie kontrolovať spracúvanie jazyka, gramatických štruktúr, slovnej zásoby a pravopisu čo prispieva k oprave prípadných chýb v sovéri. Vďaka z kníh a vzdelávacích materiálov, ktoré opisujú jazykové týmto systémom sa používateľovi poskytne detailnejšia systémy pomocou abstraktných pravidiel, tabuliek spätná väzba, osobitne vtedy, keď sa tieto systémy a textových ukážok. Učenie sa cudzieho jazyka si používajú na výučbu jazykov. Z finančných dôvodov vyžaduje veľa času i úsilia a s pribúdajúcim vekom to sú systémy založené na pravidlách prístupné iba pre už nie je také jednoduché. rozšírenejšie jazyky. Jazykové technológie nadobúdajú jazykové schopnosti Silné a slabé stránky štatistických systémov a systémov podobným spôsobom ako ľudia. Štatistické prístupy získavajú jazykové schopnosti z rozmanitého výberu konkrétnych príkladov textov. Tieto algoritmy strojového učenia modelujú istý druh jazykovej schopnosti, ktorá dokáže odvodzovať vzory ako slová, krátke frázy a celé vety používané v jednom jazyku alebo prekladané z jedného jazyka do druhého. založených na pravidlách sa navzájom dopĺňajú. Aktuálny výskum sa sústreďuje na hybridné prístupy, ktoré tieto dva systémy kombinujú. Doteraz sa však viac uplatnili v priemyselných aplikáciách než v oblasti výskumu. Ako sme si v tejto kapitole mohli prečítať, v dnešnej informačnej spoločnosti sa využíva množstvo jazykových technológií. Kvôli viacjazyčnosti to platí Ľudia si osvojujú jazyk pozorovaním komunikácie a učením sa jazykových pravidiel najmä pre európsky ekonomický a informačný priestor. Jazykové technológie zaznamenali v posledných rokoch značný rozmach. Ich permanentné zdokonaľovanie však Tento štatistický prístup vyžaduje obsah miliónov je nevyhnutnosťou. viet a svoj kvalitatívny výkon zvyšuje s narastajúcim V nasledujúcich kapitolách opíšeme úlohu slovenského množstvom analyzovaných textov. jazyka To je jeden v európskej informačnej spoločnosti z dôvodov, prečo sa prevádzkovatelia vyhľadávačov a zhodnotíme súčasný stav jazykových technológií pre snažia získať čo najviac písomných materiálov. Korekcia slovenský jazyk. 7 3 SLOVENČINA V EURÓPSKEJ INFORMAČNEJ SPOLOČNOSTI 3.1 VŠEOBECNÉ FAKTY spisovná slovenčina sa ujala a po istých úpravách Slovenský jazyk patrí – v rámci indoeurópskej rodiny až dodnes. jazykov – spolu s poľštinou, češtinou a lužickou srbčinou k západnej vetve slovanských jazykov. Jazykové, historické a archeologické fakty ukazujú, že slovenčina sa vyvíjala priamo z praslovančiny (nie cez štádium pračeskoslovenčiny). Praslovanský základ slovenčiny sa sformoval v priestore medzi Karpatmi, Dunajom a dolnou Moravou, a to v dotyku so západoslovanským areálom na západ od tohto priestoru a s východoslovanským areálom na sever a severovýchod. Do tohto priestoru prišli Slovania, predchodcovia Slovákov, v 6. storočí z juhovýchodu. pokladať Za základ slovenčiny možno rekonštruovaný jazyk veľkomoravského etnika členený na nárečia, ale reprezentovaný aj istou kultúrnou podobou. Najbúrlivejší vývin slovenčina prekonala v 10.–12. storočí, v 13.–15. storočí sa predovšetkým stabilizovala. V 16.–18. storočí sa na území Slovenska používala ako kultúrny jazyk čeština, ale aj niekoľko typov kultúrnej slovenčiny: kultúrna západoslovenčina, kultúrna stredoslovenčina a kultúrna (Martina Hattalu, Michala Miloslava Hodžu) používa Slovenský jazyk je štátnym jazykom Slovenskej republiky a od mája 2004 je slovenčina jedným z úradných jazykov EÚ. Po slovensky hovorí okolo štyri a pol milióna obyvateľov Slovenska, viac ako milión vysťahovalcov v USA a okolo 300-tisíc v Českej republike. Menšie rečové skupiny sa nachádzajú aj v Maďarsku, Rumunsku, Srbsku, Chorvátsku, Bulharsku, Poľsku, vo Francúzsku, v Nemecku, Belgicku, Rakúsku, Nórsku, Dánsku, vo Fínsku, Švédsku, v Taliansku, vo Švajčiarsku, v Holandsku, na Cypre, v Rusku a na Ukrajine, v Kirgizsku, Izraeli, Kanade, Juhoafrickej republike, Argentíne, Brazílii, Uruguaji, Austrálii, na Novom Zélande, vo Veľkej Británii a v niektorých ďalších krajinách. Slovenčina je známa ako „esperanto“ slovanských jazykov, vníma sa ako najzrozumiteľnejšia aj pre používateľov iných slovanských jazykov. Slovenčina je známa ako „esperanto“ slovanských jazykov východoslovenčina. Od konca 18. storočia sa začínajú pokusy o formovanie spisovnej slovenčiny. Anton Slováci v zahraničí predstavujú rôzne skupiny: sú Bernolák koncom 18. storočia založil svoju kodifikáciu to potomkovia pôvodných obyvateľov Slovenska, na západnej kultúrnej slovenčine, ale v dôsledku ktorí odchádzali do iných oblastí bývalého Rakúsko- zmenených spoločenských a hospodárskych podmienok Uhorska, nemal želaný úspech. Ľudovít Štúr vychádzal Slovenska v zámorí (emigrantské vlny od konca zo stredoslovenského základu, ním kodifikovaná 19. do polovice 20. storočia), politicko-ekonomickí potomkovia novších vysťahovalcov zo 8 emigranti po r. 1945, resp. 1948 a po r. 1968 verejnosti, ale vzhľadom na vzájomnú prepojenosť a ich potomkovia, napokon prevažne mladí ľudia mnohých faktorov a celospoločenský dosah každej usídlení v zahraničí po r. 1990. Odhaduje sa, že pri zmeny sa nemenia príliš často. Posledné zmeny najmä poslednej emigrantskej vlne v r. 2007–2008 odišlo v oblasti pravidla o rytmickom krátení a v písaní do zahraničia asi 270-tisíc Slovákov. Osobitnú veľkých písmen sa udiali v r. 1991. V lexikografických skupinu predstavujú potomkovia Slovákov, ktorí ostali príručkách, ktoré vznikajú v JÚĽŠ SAV a z rôznych za hranicami Slovenska po politicko-geografických hľadísk opisujú slovnú zásobu slovenčiny (Krátky zmenách po r. 1918, resp. 1945. Na Slovensku zároveň slovník slovenského jazyka, žijú národnostné menšiny (Maďari, Rómovia, Česi, slovenského jazyka A – G, H – L, Synonymický slovník, Rusíni, Ukrajinci, Nemci, Poliaci, Moravania, Chorváti, Slovník cudzích slov – akademický [6, 7, 8, 9, 10]), sa Bulhari, Židia), ktoré spolu tvoria 14,2 % obyvateľov okrem pravopisnej normy zachytáva aj lexikálna a sčasti Slovenska. Používanie štátneho jazyka a jazykov menšín aj gramatická a ortoepická norma. Stav slovenčiny v na území Slovenska upravuje Zákon o štátnom jazyku rôznych jej podobách mapujú aj osobitné monografie a a Zákon o používaní jazykov národnostných menšín. štúdie v časopisoch vydávaných JÚĽŠ SAV. Slovník súčasného Územné usporiadanie Slovenska (územie s rozlohou Slovenský jazyk má viacero foriem: spisovná slovenčina necelých 50-tisíc km² je situované najmä na dĺžku, ktorá je predovšetkým jazykom písanej podoby a úradnej, dosahuje od východnej po západnú hranicu takmer oficiálnej komunikácie, hovorová slovenčina je 430 km) a špecifiká jednotlivých nárečí ovplyvňujú štandardnou predovšetkým hovorenej aj podobu slovenčiny v jednotlivých regiónoch komunikácie. V každej forme sú osobitné podskupiny, a lokalitách, s čím sa musia vyrovnávať predovšetkým ktoré tvoria stratifikačný systém slovenčiny: spisovná cudzinci učiaci sa slovenčinu a pohybujúci sa na území forma/celoslovenská štandardná forma/celoslovenská SR. subštandardná podobou forma/regionálne varianty/lokálne varianty, teritoriálna forma (nárečia), sociálne formy 3.1.1 Slovenské nárečia (slangy, žargóny, argoty, profesionálne jazyky). Slovenské Za reguláciu jazyka a jazykovú politiku bolo v dobe písania tohto dokumentu zodpovedné Ministerstvo kultúry SR (Zákon o štátnom jazyku SR, Ústredná jazyková rada). Vo svojich rozhodnutiach by sa malo opierať o poznatky a názory vedeckej a odbornej obce, na ktorej čele stojí Jazykovedný ústav Ľudovíta Štúra Slovenskej akadémie vied (ďalej JÚĽŠ SAV). JÚĽŠ SAV je zriaďovateľom a koordinátorom činnosti viacerých komisií s celoslovenskou pôsobnosťou: pravopisná komisia, ortoepická komisia, onomastická komisia a kodifikačná komisia. Jednotlivé komisie pripravujú a odporúčajú kodifikáciu ortoepickej, pravopisnej, gramatickej a lexikálnej normy. Pravopisné pravidlá prechádzajú osobitnou diskusiou aj so zapojením širšej nárečia predstavujú dorozumievací prostriedok autochtónneho obyvateľstva príslušných nárečových oblastí v každodennom spoločenskom a pracovnom styku s najbližším okolím. Slovenské nárečia sa doteraz dedia z generácie na generáciu v ústnej podobe, hoci aj tu dochádza v porovnaní s minulosťou k procesu nivelizácie. Slovnú zásobu jednotlivých nárečí na území Slovenska opisuje Slovník slovenských nárečí, podrobnejšie a v rozšírení na ďalšie jazykové roviny sú viaceré nárečia opísané v samostatných monografiách. Slovenské nárečia sa členia na tri základné skupiny (pozri obrázok 1): a) Západoslovenské nárečia sú rozšírené v trenčianskej, 9 40 40 40 11 20 10 13 22 26 23 25 42 15 32 34 35 18 17 31 42 43 42 43 42 24 43 41 33 14 16 41 30 12 21 41 43 1: Mapa slovenských nárečí nitrianskej, trnavskej, myjavskej oblasti a v ďalších 16. Hontianske nárečie regiónoch. 17. Novohradské nárečia 20. Hornotrenčianske nárečia 21. Dolnotrenčianske nárečie 22. Považské nárečie 18. Gemerské nárečia c) Východoslovenské nárečia možno nájsť v regiónoch Spiš, Šariš, Zemplín a Abov. 23. Stredonitrianske nárečia 30. Spišské nárečia 24. Dolnonitrianske nárečia 31. Abovské nárečia 25. Nárečia trnavského okolia 32. Šarišské nárečia 26. Záhorské nárečia 33. Zemplínske nárečia b) Stredoslovenskými nárečiami sa hovorí v regiónoch 34. Sotácke nárečia Liptov, Orava, Turiec, Tekov, Hont, Novohrad, 35. Užské nárečia Gemer a vo zvolenskej oblasti. 40. Oblasť goralských nárečí 10. Liptovské nárečia 11. Oravské nárečia 12. Turčianske nárečie 13. Hornonitrianske nárečia 14. Zvolenské nárečia 15. Tekovské nárečia 41. Oblasť ukrajinských nárečí 42. Nárečovo rôznorodé oblasti 43. Oblasť maďarských nárečí Tieto skupiny sa ďalej bohato a pestro členia („Čo dedina, to reč iná“), pričom členitosťou sa nárečia vyznačujú predovšetkým v hornatých oblastiach. 10 Práve hornatosť krajiny spôsobovala v minulosti istú jazykmi a o dobrej zrozumiteľnosti slovenčiny pre (rečovú) izolovanosť obyvateľstva v rámci jednotlivých príslušníkov ostatných slovanských národov. žúp. Pod tieto špecifiká sa podpísalo ďalej aj Slovenčina používa upravené latinské písmo. Keďže pre prevrstvovanie a migrácia obyvateľstva, kolonizácie, niektoré slovenské hlásky v latinskej abecede chýbajú miešanie odlišných nárečových typov, pôsobenie osobitné písmená, slovenská abeceda si vypomáha susedných slovanských i neslovanských jazykov, zmeny diakritickými znamienkami. v zamestnaní obyvateľstva a pod. Podľa povahy sa zaznačuje mäkčeňom (ď, ť, ň, ľ, používa sa aj pri nárečí a výskytu jednotlivých charakteristických javov grafémach ž, š, č, dž), dĺžka vokálov, resp. konsonantov možno zaradiť do uvedených skupín aj slovenské dĺžňom (á, é, í, ý, ó, ú, ŕ, ĺ ). Vokály nepodliehajú nárečia v Maďarsku, Srbsku, Chorvátsku, Rumunsku, redukcii, v každej pozícii sa vyslovujú v plnej forme. Bulharsku a v iných krajinách, kam sa v minulosti Okrem samohlások a spoluhlások existujú v slovenčine presídlili veľké kompaktné skupiny. Pri menšom počte takzvané i-dvojhlásky (ia, ie, iu) a jedna u-dvojhláska starých písomných pamiatok sú slovenské nárečia (/u"o/, píše sa ô; /ou"/ sa nepovažuje za dvojhlásku), základným prameňom slovenskej historickej gramatiky. pričom prvý úsek sa vyslovuje ako polosamohláska. 3.2 ŠPECIFIKÁ SLOVENČINY Slovenčina sa začala samostatne vyvíjať priamo z praslovančiny od 10. storočia. Mäkkosť konsonantov Niektoré špecifické črty slovenského jazyka existujú aj v jazykoch južných Slovanov Hlavné zmeny v nej prebehli a ustálili sa do 15. storočia, niektoré Fonetickým špecifikom štandardnej slovenčiny rovnomerne (zánik nosoviek), iné diferencovane (a stredoslovenských dialektov) je takzvaný rytmický (vokalizácia tvrdých jerov vo východnej a západnej zákon, podľa ktorého by vedľa seba nemali byť dve dlhé časti dnešného Slovenska bola západoslovanského slabiky (pekný – krásny, prosím – smútim). Slovenčina typu, v centrálnej časti nezápadoslovanského typu). má prízvuk viazaný na prvú slabiku slova, ktorý nie Súčasťou týchto zmien bol aj rozpad praslovanskej je príliš silný (slabší ako v ruštine alebo v poľštine). stavby slabiky, čo ovplyvnilo zmeny v skloňovaní V predložkových frázach s jednoslabičnou predložkou a časovaní. Aj keď sa slovenčina a čeština dlhý čas vyvíjali sa prízvuk zvyčajne kladie na predložku: pri škole. za rozdielnych podmienok (Slovensko sa v 11. storočí stalo súčasťou Uhorského kráľovstva), ostali si navzájom blízke. Niektoré špecifické črty slovenského jazyka Slovenčina používa upravené latinské písmo (formy lakeť, Česi, prípona -m pri slovesách v prvej osobe jednotného čísla atď.) však súčasne existujú Slovenčina má v porovnaní s ruštinou, ale aj v jazykoch južných Slovanov. Niektorými menej napríklad aj s češtinou, jednoduchšiu štruktúru dôležitými charakteristikami slovenčina pripomína skloňovacích a časovacích paradigiem. poľštinu (predpona pre- na rozdiel od českého pro- systém substantívnych a slovesných foriem je však , zachovanie spoluhlásky dz a niekoľko výrazov, napriek unifikačným tendenciám dostatočne jasne napríklad teraz, pivnica). Inými charakteristikami sa členený. blíži k východoslovanským jazykom. Hovorí sa preto pádov (nominatív, genitív, datív, akuzatív, lokál o centrálnej pozícii slovenčiny medzi slovanskými a inštrumentál). Vokatív sa v slovenčine na rozdiel Tvarový Slovenský jazyk má šesť gramatických 11 od češtiny aktívne nevyužíva, zvyčajne je identický slovosledu. Jednoznačnému určeniu S a O napomáhajú s nominatívom. Slovenčina rozoznáva 4 rody: mužský pády (S je v N, O je zvyčajne v A alebo G, D, životný a mužský neživotný, ženský a stredný rod zriedkavejšie v ostatných pádoch), homonymia tvarov podstatných mien a súvisiacich prídavných mien, však môže spôsobiť neistotu v obsadení funkcie subjektu zámen a čísloviek. Mužský a ženský rod sa pri a objektu (najmä pri cudzích vlastných menách, ale životných konkrétach určuje podľa prirodzeného rodu, v školskej praxi a v počítačovej analýze vo viacerých v ostatných prípadoch je to vec konvencie, ktorá ďalších prípadoch). nie je signalizovaná nijakým členom, iba niekedy Osobitné problémy cudzincom a počítačovému zakončením (napr. strom – masculínum inanimatum, spracovaniu slovenčiny robia slovesné morfémy sa, si, jabloň – feminínum, jablko – neutrum). Pre každý ktoré môžu stáť pred slovesom alebo za ním, a to aj rod sú v školských učebniciach uvedené viaceré vzory, vo vzdialenosti viacerých slov či dokonca v inej časti ktorých paradigmy sa odlišujú najmä v G/A sg. a N/G rozdelenej vety v súvetnej štruktúre (Netrvalo dlho, keď pl. (napr. mužský životný chlap / chlapa / chlapi / sa im ich hviezda, ktorú predtým videli v diaľke, zrazu chlapov, hrdina / hrdinu / hrdinovia / hrdinov; žena priblížila). / ženy / ženu / ženy / žien, dlaň / dlane / dlaň / dlane frázy so subjektom (agensom), ale často sa používajú / dlaní). Súčasne je v niektorých vzoroch a pádoch aj jednočlenné frázy bez agensa (Prší. – Prišlo mu zle. – značná pádová homonymia: G a A sg. životných Na stavbe sa tvrdo pracuje.). Subjekt známy z kontextu maskulín, N a A sg. neživotných maskulín, v ženskom a tvaru prísudkového slovesa sa formálne nevyjadruje rode G sg. a N pl. a pod. Medzi vzormi sú možné (Našiel som ho.), jeho prítomnosť vo vete v podobe prechody, napr. ženský vzor kosť je v súčasnosti osobného zámena je pre slovenčinu príznaková (Ja som produktívnejší ako vzor dlaň. Slová zaradené k istému ho našiel!). V slovenčine sú najčastejšie dvojčlenné vzoru sa od neho často odlišujú, čo sa rieši vymenovaním výnimiek; vo vedeckých a počítačovo-lingvistických prácach sa však uvádza oveľa väčší počet vzorov [11, 12, 13]. 3.3 SLOVENČINA NA INTERNETE Pri slovesách sa rozlišujú tri časy: minulý, prítomný Na konci roka 2010 bola veľkosť slovenskej internetovej a budúci. populácie približne 2 394 000, čo je viac ako 44 % Okrem troch slovesných spôsobov – indikatívu, imperatívu a kondicionálu – má väčšina všetkých Slovákov. slovies jeden z nasledujúcich vidov – nedokonavý je toto percento omnoho vyššie, keďže mladí ľudia (olať ) a dokonavý (zaolať ). trávia počas dňa mnoho času na internete. Slovenčina je silne V prípade mladšej generácie Do flektívny jazyk s prvkami analytických konštrukcií konca roka 2010 prekročil počet slovenských domén (hlavne v slovesných formách ako budem písať, bol by hranicu 231-tisíc [14]. Podiel .sk domén na svetovom som prišiel). Gramatickú funkciu slova jasne určuje internete bol na konci roka 2010 približne 1 ‰ skloňovanie, slovosled vety je teda pomerne voľný. (počet všetkých domén podľa http://www.verisigninc. V syntaktickej typológii slovenčinu charakterizuje com dosahoval približne 200 miliónov). Na internete základná konštrukcia S(ubjekt) – V(erbum) – sa slovenčina s diakritikou objavila v polovici 90. rokov O(bjekt), ide však skôr o teoretickú schému, ktorá 20. storočia. Sféra internetovej komunikácie a texty, v praxi nadobúda rozličné formy v dôsledku voľného ktoré sa na internete nachádzajú, sú zaujímavé z hľadiska 12 využívania rôznych aplikačných oblastí, ktoré ako zdroj 3.4 SLOVENČINA AKO CUDZÍ JAZYK využívajú jazykové dáta. 3.4.1 Slovak Online Rovnako ako pri mnohých iných európskych jazykoch, Slovak Online [15] je projekt umožňujúci bezplatné aj pre začiatky používania slovenčiny na internete štúdium slovenského jazyka prostredníctvom e- (a všeobecne vo výpočtovej technike) bolo typické learningu na webovom portáli. Ponúkané jazykové vynechávanie diakritiky. Kvôli zmätkom s kódovaním kurzy rôznych úrovní (minikurz pre turistov, kurzy znakov na konci 80. a začiatkom 90. rokov 20. storočia A1 a A2 podľa Spoločného európskeho referenčného a nedostatočnej sovérovej podpore rozličných rámca) sú rozdelené do tematických kapitol a doplnené znakových kódovaní začal „správny“ pravopis na audio a videonahrávkami a cvičeniami. internete prevládať až koncom 90. rokov. V súčasnosti, obsahuje aj prehľad slovenskej gramatiky a pravopisu, pri takmer univerzálnom používaní kódovania Unicode prekladový slovník a jazykové hry. a UTF-8, neexistujú žiadne nevyriešené problémy sa tu takisto základné informácie a zaujímavosti a diakritika sa používa univerzálne (v neformálnych o Slovensku a slovenčine, knižnica s ukážkami diel kontextoch, napr. v e-mailoch a na diskusných fórach slovenských autorov a možnosť komunikácie medzi a hlavne v SMS správach sa však bežne používa zaregistrovanými používateľmi formou textových správ. výskumu prirodzeného jazyka, ale aj z hľadiska možnosti zberu štatistických materiálov. Internet je aj miestom Stránka Sprístupňujú slovenčina bez diakritiky). Osobitnou kategóriou sú bilingválne slovníky, ktoré sú voľne prístupné slovenským používateľom internetu na troch veľkých slovenských portáloch (azet.sk, centrum.sk, zoznam.sk). Spoločnosť Google vyvíja voľne dostupný automatický prekladač textov z rôznych jazykov do slovenčiny a naopak. Miera správnosti je však v prípade väčšiny jazykov nízka. Zaujímavý je vzájomný preklad medzi blízkopríbuznými jazykmi slovenčina-čeština a češtinaslovenčina, kde je úspešnosť a správnosť prekladu pomerne dobrá. Samozrejme, aj tento preklad je miestami nesprávny, ale je omnoho úspešnejší ako preklad medzi slovenčinou a angličtinou, nemčinou, francúzštinou a inými rozšírenými jazykmi. Cieľovou skupinou sú cudzinci, partneri v zmiešaných manželstvách, obyvatelia pohraničných oblastí, Slováci žijúci v zahraničí, slovakisti, slavisti a ďalší záujemcovia Cieľovou skupinou projektu sú cudzinci žijúci na území Slovenska, partneri v zmiešaných manželstvách, obyvatelia pohraničných oblastí, Slováci žijúci v zahraničí, slovakisti a slavisti, imigranti, študenti a turisti. V súčasnosti stránka existuje v nemeckej, anglickej, esperantskej, francúzskej, litovskej, poľskej a slovenskej verzii. Projekt, ktorý je prvým svojho druhu, vznikol na základe skúseností získaných prevádzkou stránky lernu! [16], najväčšieho portálu na učenie sa jazyka O využívaní internetových zdrojov používateľmi esperanto. Projekt Slovak Online podporila Európska slovenského internetu svedčí aj vyše 60-tisíc slovenských komisia v rámci programu KA2 – languages – program registrovaných používateľov internetovej encyklopédie celoživotného vzdelávania. Realizátorom projektu je Wikipédia v slovenskom jazyku. Slovenská Wikipédia občianske združenie Edukácia@Internet (Slovensko), obsahuje vyše 285-tisíc článkov. partnermi sú Jazykovedný ústav Ľudovíta Štúra SAV 13 (Slovensko), Studio GAUS (Nemecko), Vilniaus ako cudzí jazyk. universitas (Litva), Wyższa Szkoła Informatyki, SAS využilo služby tejto inštitúcie takmer šesťtisíc Zarządzania i Administracji w Warszawie (Poľsko) zahraničných záujemcov o slovenský jazyk, kultúru a Slovak Centre London (Spojené kráľovstvo Veľkej a slovenské reálie z viac ako 50 štátov sveta. Británie a Severného Írska). pôde Studia Academica Slovaca boli položené základy 3.4.2 Studia Academica Slovaca Studia Academica Slovaca – centrum pre slovenčinu ako cudzí jazyk (SAS) je špecializovaným pracoviskom Filozofickej fakulty Univerzity Komenského (FF UK) a v Bratislave. vedeckovýskumnej Ťažiskom činnosti je pedagogickej vzdelávanie zahraničných záujemcov o slovenský jazyk a kultúru, propagácia slovenskej vedy, kultúry a umenia v zahraničí, realizácia a koordinácia výskumu slovenčiny ako cudzieho jazyka, riešenie medzinárodných a domácich vedeckovýskumných projektov a edičná činnosť zameraná na tvorbu a vydávanie vedeckých Za takmer polstoročie existencie Na vedeckého opisu a didaktiky slovenčiny ako cudzieho jazyka a vznikli tu prvé učebnice a príručky slovenčiny pre cudzincov. Vzhľadom na svoju bohatú tradíciu a skúsenosti v súčasnosti pôsobí SAS ako koordinačné a informačné centrum s celoslovenskou a exteritoriálnou pôsobnosťou. V roku 2006 centrum SAS získalo akreditáciu Ministerstva školstva Slovenskej republiky na poskytovanie vzdelávacích aktivít Slovenčina ako cudzí jazyk – jazykový kurz v kontaktnej a dištančnej forme pre všetky stupne jazykového vzdelávania, a to pre začiatočníkov A1, A2, mierne a stredne pokročilých B1, B2 a pokročilých C1, C2, ktorých obsah je publikovaný v tlačenej verzii [17] a takisto na webovej stránke [18]. slovakistických publikácií a učebníc slovenčiny ako cudzieho jazyka. Okrem toho SAS ako odborné centrum pre slovenčinu ako cudzí jazyk už tradične participuje na odborno-metodickej príprave lektorov slovenčiny ako cudzieho jazyka pôsobiacich na zahraničných univerzitách. Výsledkom spolupráce s lektorátmi a zahraničnými slovakistami je databáza slovakistiky v zahraničí. Na základe grantu Ministerstva školstva Slovenskej republiky sa v rámci projektu Vzdelávací program Slovenčina ako cudzí jazyk ponúka záujemcom o slovenský jazyk e-learningový kurz slovenčiny [19] pre 1. stupeň A1 (úplný začiatočník) a 2. stupeň A2 (začiatočník). Cieľom projektu je tvorba obsahu a foriem jazykového vzdelávania cudzincov pre jednotlivé stupne podľa Spoločného európskeho Ťažiskom činnosti je vzdelávanie zahraničných záujemcov, propagácia slovenskej vedy, kultúry a umenia referenčného rámca pre jazyky, ako aj špecifikácia jednotných kritérií hodnotenia a certifikácie jazykovej kompetencie. Hlavnou náplňou je príprava štandardných a špecializovaných učebných materiálov Osobitnou zložkou činnosti centra je každoročná pre študentov a metodických príručiek pre učiteľov. organizácia a realizácia letnej školy slovenského Každoročne sa koná odborno-metodický seminár pre jazyka a kultúry Studia Academica Slovaca, ktorú učiteľov základných a stredných škôl v zahraničí, ako aj FF UK ponúka zahraničným záujemcom už od pre lektorov pôsobiacich na zahraničných univerzitách roku 1965. Na jej úspešnú históriu nadviazalo s cieľom informovať o novinkách v oblasti lingvistiky, Metodické centrum SAS (1992), ktoré sa v roku 2006 literatúry, kultúry a didaktiky slovenčiny ako cudzieho pretransformovalo na SAS – centrum pre slovenčinu jazyka. 14 Za realizáciu projektu, ktorý rieši kolektív Studia Academica Slovaca, Vzdeláací program Sloenčina ako cudzí jazyk, získala Filozofická fakulta UK ocenenie iniciatívy Európskej komisie v oblasti jazykového vzdelávania Európska značka 2007. 3.5 SLOVENSKÝ NÁRODNÝ KORPUS Celosvetový trend rozvoja jazykových a informačných technológií a potreba zodpovedajúcej materiálovej bázy pre koncipovanie slovníkov a opis slovenského jazyka 3.4.3 Letná škola slovenského jazyka a kultúry Studia Academica Slovaca podnietil vznik korpusov a korpusovej lingvistiky aj na Letná škola slovenského jazyka a kultúry Studia Ministerstva školstva SR (informatizácia a využívanie Academica Slovaca (SAS) je určená zahraničným slovakistom a slavistom, študentom na zahraničných univerzitách, kultúrnym pracovníkom, manažérom, lektorom, prekladateľom a všetkým záujemcom o štúdium slovenského jazyka a kultúry. Cieľom kurzu je získanie a prehĺbenie komunikačnej kompetencie v slovenskom jazyku na rôznych stupňoch a rozšírenie Slovensku. V r. 2002 vzniklo s podporou Ministerstva kultúry SR (program starostlivosti o štátny jazyk), inovatívnych metód vo výučbe) a Slovenskej akadémie vied oddelenie Slovenského národného korpusu Jazykovedného ústavu Ľ. Štúra SAV (SNK JÚĽŠ SAV). Kolektív ôsmich, prevažne mladých vedeckých, odborných a technických pracovníkov bol poverený riešením úlohy Budovanie Slovenského národného korpusu a elektronizácia jazykovedného výskumu na poznatkov zo slovenskej lingvistiky, literatúry, histórie Slovensku [20]. a kultúry. V začiatkoch budovania pracoviska, Letná škola SAS je najstaršou letnou univerzitou databázy a špecifických nástrojov na jej tvorbu na Slovensku - existuje od roku 1965 a od roku a využívanie sa na pôde oddelenia SNK konali 1966 pod názvom Studia Academica Slovaca. SAS pravidelné vedecké semináre, na ktorých prednášali si od svojho vzniku kontinuálne zachováva profil významní zahraniční odborníci. slovakistických akademických štúdií. boli zhrnuté do publikácie Insight into the Sloak Letnú školu korpusovej Vybrané príspevky SAS každoročne absolvuje približne 150 frekventantov and Czech Corpus Linguistics [21]. z viac ako 30 krajín sveta. Na príprave a realizácii organizuje kolektív SNK bienálnu medzinárodnú vzdelávacieho programu sa podieľajú vysokoškolskí konferenciu Slovko [22] o počítačovom spracovaní pedagógovia a lektori odborne vyškolení v oblasti prirodzených slovenčiny ako cudzieho jazyka, z ktorých mnohí majú výskumoch. skúsenosti aj z pôsobenia na lektorátoch zahraničných domáci aj zahraniční bádatelia (z Bulharska, Česka, univerzít. Francúzska, Chorvátska, Maďarska, Nemecka, Poľska, jazykov a Od r. 2005 korpusovolingvistických Na podujatí sa pravidelne zúčastňujú Rakúska, Ruska, Slovinska, Španielska, Ukrajiny a i.). V zborníkoch z týchto konferencií je publikovaných vyše sto príspevkov o príprave, riešení a výsledkoch Cieľom je získanie a prehĺbenie komunikačnej kompetencie v slovenskom jazyku národných a medzinárodných projektov v oblasti budovania a využívania všeobecných i špecifických korpusov a databáz, v oblasti analýzy a syntézy reči, automatizovaného prekladu, počítačovej lexikografie 15 a termínografie, e-learningu a pod. V prepisoch sú výberovo zachytené špecifické vlastnosti Pracovníci oddelenia SNK JÚĽŠ SAV sa doteraz hovorenej reči: zapojili do 7 projektov v rámci Slovenska a do 6 výslovnostné varianty, prostriedky modulácie reči, medzinárodných projektov a spoluprác [23]. V r. 2005 prítomnosť nejazykových prvkov. Slovenský hovorený získali Cenu SAV za budovanie infraštruktúry pre vedu. korpus poskytuje materiál na výskum a opis reálnej 3.5.1 Korpus písaných textov Primárny, všeobecný korpus prim obsahuje texty nepravidelná štruktúra výpovede, podoby súčasnej štandardnej hovorenej slovenčiny. 3.5.3 Slovenská terminologická databáza v slovenskom jazyku, ktoré vznikli po r. 1955. V Zastúpené sú tri hlavné štýly: publicistický, umelecký, sa nachádzajú slovenské termíny a relevantné odborný (populárno-náučný), ako aj rôzne žánre a vecné terminologické informácie z viacerých disciplín. oblasti. Texty sú z celého Slovenska i od Slovákov Databáza slúži na ustaľovanie a zjednocovanie žijúcich v zahraničí, originálne slovenské aj preložené terminologických z iných jazykov. Na špecifické výskumy sa z hlavného odborníkov z príslušných vecných oblastí a lingvistov, korpusu prim-*-all tvoria samostatné podkorpusy: jej cieľom je sumarizácia a štandardizácia terminológie sane – neobsahuje lingvistické texty, texty bez diakritiky, texty od zahraničných Slovákov a pod.; vyv – publicistické, umelecké a odborné texty sú Slovenskej na Slovensku. terminologickej sústav na databáze základe [27] spolupráce Termíny sa do databázy získavajú aj zo špecializovaných odborných korpusov (korpus právnych textov, korpus ekonomických textov a pod.). zastúpené tretinovým podielom; 3.5.4 Paralelné korpusy inf – iba publicistické texty; V rámci Slovenského národného korpusu je aktuálne prf – iba odborné texty; prístupný slovensko-ruský [28], slovensko-francúzsky img – iba umelecké texty; [29], slovensko-anglický [30] a slovensko-český [31] skimg – iba pôvodné slovenské umelecké texty. paralelný korpus. Použitie textov v Slovenskom národnom korpuse sa 3.5.5 Lingvistické zdroje riadi ustanoveniami slovenského autorského zákona. Najznámejším Textom a textovým jednotkám v korpuse sa štandardne priraďuje vonkajšia: bibliografická a štýlovo-žánrová anotácia [24] a vnútorná, morfologická alebo morfosyntaktická anotácia [25]. Všetky slová sú lematizované. a najvyužívanejším produktom elektronizácie jazykovedného výskumu na Slovensku je bezplatne verzií prístupný aktuálnych vydaní súbor elektronických Krátkeho slovníka slovenského jazyka, Pravidiel slovenského pravopisu, Synonymického slovníka slovenčiny, Slovníka cudzích 3.5.2 Slovenský hovorený korpus slov, staršieho Slovníka slovenského jazyka [32], ako Databáza hovoreného korpusu [26] obsahuje zvukové a lingvistických časopisov [33]. záznamy spontánnych aj (polo)pripravených prejavov lingvistických zdrojov smeruje v priemere 40 000 z celého územia Slovenska a ich textové prepisy. dopytov denne. aj ďalších slovníkových diel, monografií, zborníkov Do databázy 16 4 JAZYKOVÉ TECHNOLÓGIE NA PODPORU SLOVENČINY Jazykové technológie sú informačné technológie, ktoré sa zameriavajú na prácu s ľudským jazykom, preto sa tieto technológie často zaraďujú pod pojem ľudské jazykové technológie. Ľudský jazyk existuje v hovorenej a písomnej forme. Kým reč je najstarší a najprirodzenejší spôsob jazykovej komunikácie, Tieto aplikácie a základné technológie zahŕňajú: opravu pravopisu systém autorskej podpory výučbu cudzích jazykov s využitím informačných technológií komplexné informácie a súhrn ľudského poznania získavanie informácií sa zaznamenávajú a prenášajú vo forme písomných extrakciu informácií textov. Rečové a textové technológie spracúvajú alebo sumarizáciu textu produkujú jazyk v uvedených dvoch formách. Avšak zodpovedanie otázok jazyk má aj črty, ktoré sú spoločné pre -hovorenú rozpoznávanie reči aj písanú formu, napr. slovníky obsahujú zväčša gramatiku, ale zároveň opisujú aj význam viet. Veľkú časť syntézu reči. jazykových technológií teda nemožno zaradiť výlučne O jazykových technológiách, o ktoré sa zaujíma aj veda pod rečovú alebo textovú technológiu. Znalostné a výskum, existuje značné množstvo literatúry. Čitateľ technológie sú technológie, ktoré spájajú jazyk si ju v prípade záujmu môže vyhľadať v referenciách: s vedomosťami. Obrázok 2 znázorňuje záber jazykových [34, 35, 36, 37, 38]. technológií. V našej komunikácii miešame jazyk Predtým ako sa budeme zaoberať spomínanými s inými druhmi komunikácie a ďalšími informačnými aplikačnými oblasťami, stručne opíšeme architektúru médiami. Reč kombinujeme s gestami a výrazmi tváre. typického systému jazykových technológií. Texty je možné kombinovať s obrázkami a zvukmi. Filmy môžu obsahovať jazyk v hovorenej aj písomnej forme. Rečové a textové technológie sa teda prekrývajú a pôsobia v interakcii s mnohými ďalšími technológiami, ktoré uľahčujú spracovanie multimodálnej komunikácie a multimediálnych dokumentov. V tejto časti sa budeme zaoberať hlavnými aplikačnými oblasťami jazykových technológií, ako sú kontrola pravopisu, vyhľadávanie na webe, syntéza reči a strojový preklad. 4.1 ARCHITEKTÚRA APLIKÁCIÍ Typické sovérové aplikácie na spracovanie jazyka sa skladajú z niekoľkých zložiek, ktoré odrážajú rôzne aspekty jazyka a úlohu, ktorú plnia. Obrázok 3 zobrazuje veľmi zjednodušenú architektúru, ktorú možno nájsť v systéme na spracovanie textu. Prvé tri moduly sa zaoberajú štruktúrou a významom textového vstupu: 17 Technológie spracovania hovoreného jazyka Multimediálne & multimodálne technológie Jazykové technológie Znalostné technológie Technológie spracovania textu 2: Záber jazykových technológií Predbežné spracovanie: vyčistenie dát, odstránenie pre vyjadrenie komplexnosti aplikácií jazykových formátovania, detekcia vstupného jazyka, detekcia technológií všeobecne zrozumiteľným spôsobom. chýbajúcej diakritiky atď. Gramatická analýza: hľadanie slovesa a jeho prislúchajúceho predmetu alebo zvratného zámena atď.; zistenie vetnej štruktúry. Sémantická analýza: odstránenie viacznačnosti (Ktorý význam slova mier je správny v danom kontexte?), vyriešenie anafory a odkazujúcich výrazov ako on, to auto atď.; prezentácia významu vety v strojovo čitateľnej forme. Po predstavení základných aplikačných oblastí poskytneme stručný prehľad situácie jazykových technológií v oblasti výskumu a vzdelávania, pričom na záver uvedieme prehľad minulých a prebiehajúcich výskumných programov. Na konci tejto časti budeme prezentovať odborný odhad situácie oblasti základných nástrojov a zdrojov jazykových technológií z viacerých hľadísk, napríklad z hľadiska dostupnosti, zrelosti alebo kvality. Situácia jazykových technológií pre slovenčinu Moduly na špecifické úlohy potom vykonávajú rôzne je zobrazená v tabuľke na obrázku 9 na konci tejto operácie, ako je automatická sumarizácia vstupného kapitoly (s. 31). Tabuľka poskytuje prehľad všetkých textu, databázové hľadania a mnoho ďalších. Ďalej nástrojov a zdrojov, ktoré sú v texte zvýraznené tučným ukážeme základné aplikačné oblasti a zdôrazníme ich písmom. základné moduly. Opäť pripomíname, že architektúry porovnané s inými jazykmi, ktoré sú taktiež súčasťou aplikácií sú veľmi zjednodušené a idealizované tejto série. Jazykové technológie pre slovenčinu sú Vstupný text Predbežné spracovanie Výstup Gramatická analýza Sémantická analýza Účelové moduly 3: Typická architektúra aplikácie na spracovanie textu 18 4.2 ZÁKLADNÉ APLIKAČNÉ OBLASTI 4.2.1 Kontrola pravopisu napríklad potrebná aj na rozhodnutie, či sa má isté slovo písať s „y“ alebo s „i“, ako napríklad v prísloví: Kto chce psa biť, palicu si nájde. Kto chce psom byť, pána si nájde. Každý, kto používa kancelársky balík, ako napríklad LibreOffice, už pravdepodobne narazil na funkciu Kontrola pravopisu a gramatiky, ktorá poukazuje na pravopisné chyby a navrhuje ich opravu. 40 rokov po tom, čo Ralph Gorin uviedol prvý program na kontrolu pravopisu, sa tieto programy jazyka stali oveľa sofistikovanejšími a už nepracujú len na princípe porovnávania zoznamu vybraných slov s pravopisným slovníkom. Oproti jazykovo závislým algoritmom na zvládnutie morfológie (napr. tvorenie plurálu) existujú aj algoritmy schopné rozpoznať syntaktické chyby, typu chýbajúce sloveso alebo sloveso nezhodné s podmetom v osobe a čísle, ako to môžeme pozorovať napríklad aj vo vete ‘She *write a letter.’ („Ona písať list.“). Najdostupnejšie funkcie kontroly pravopisu (vrátane uplatnených v balíku LibreOffice) však v nasledujúcej prvej strofe básne Jerrolda H. Zara založenej na homofónii nenájdu žiadnu chybu (1992) [39]: Takýto postup si vyžaduje buď formuláciu gramatických pravidiel špecifických pre daný jazyk, čo zároveň predpokladá vysoký stupeň expertízy a manuálnej práce, alebo využitie takzvaného štatistického jazykového modelu. Takéto modely prepočítavajú možnosť výskytu istého slova v danom kontexte (tzn. s predchádzajúcimi a nasledujúcimi slovami). Napríklad, chce psom byť je oveľa pravdepodobnejší sled slov ako chce psom biť a naopak, chce psa biť je oveľa pravdepodobnejšia vetná konštrukcia než chce psa byť (napriek tomu by sme nepochybne dokázali vymyslieť kontexty, v ktorých sú gramaticky správne všetky štyri uvedené fragmenty). Štatistický jazykový model môže byť automaticky derivovaný využívaním veľkého množstva (korektných) jazykových dát (t. j. korpusu). Tieto prístupy však boli vyvinuté a hodnotené len na anglických jazykových dátach a nedajú sa automaticky priamo aplikovať na slovenčinu s jej nestálym slovosledom a bohatou flexiou. Eye have a spelling chequer Používanie funkcie Kontrola pravopisu a gramatiky nie It came with my Pea Sea. je obmedzené len na nástroje spracovania textu, ale It plane lee marks four my revue využíva sa aj v autorských systémoch. Spolu s rastúcim Miss Steaks I can knot sea. počtom technických produktov sa za posledné obdobie Na spracovanie tohto typu chýb je v mnohých rapídne zvýšil aj počet technickej dokumentácie. Strach prípadoch potrebná analýza daného kontextu, ktorá je spoločností zo sťažností zákazníkov a z nárokov na Štatistický jazykový model Vstupný text Kontrola pravopisu Kontrola gramatiky Návrhy opráv 4: Kontrola pravopisu a gramatiky (štatistická; na báze pravidiel) 19 náhradu škody, ktorá bola zapríčinená nesprávnymi alebo nesprávne pochopenými inštrukciami, spôsobil, že sa spoločnosti začali viac sústreďovať na kvalitu technickej dokumentácie a zároveň na medzinárodný trh. Pokroky v spracovávaní prirodzeného jazyka vedú k rozvoju autorského podporného sovéru, ktorý slúži zostavovateľovi technickej dokumentácie na využívanie slovnej zásoby a vetných štruktúr v súlade s istými pravidlami a terminologickými obmedzeniami. 4.2.2 Vyhľadávanie na webe Vyhľadávanie na webe, intranete alebo v digitálnych knižniciach je dnes pravdepodobne najpoužívanejšia, no zároveň najmenej vyvinutá jazyková technológia. Google Vyhľadávač, ktorý vznikol v roku 1998, sa v súčasnosti využíva na vyhľadávanie 80 % všetkých vyhľadávacích dopytov po celom svete. V roku 2006 sa sloveso googloať /googliť len veľmi tesne nestihlo zaradiť do prvého zväzku nového Sloníka súčasného sloenského jazyka, čo sa jeho autorom neustále vyčítalo. Od prvej verzie Google sa dlhšiu dobu výrazne Funkcie kontroly pravopisu a gramatiky pre slovenský jazyk sú väčšinou založené na slovníku základných slovných tvarov (lem) a súbore pravidiel na odvodenie ostatných tvarov nezmenilo ani rozhranie vyhľadávania, ani zobrazovanie získaných výsledkov. V súčasnej verzii ponúka Google opravu pravopisu nesprávne napísaných hľadaných slov a v roku 2009 začal vo svojich algoritmoch pracovať aj so základnou sémantickou analýzou [40], čo môže zvýšiť presnosť vyhľadávania analyzovaním Existujúce zariadenia kontroly pravopisu a gramatiky významu požadovaných výrazov v kontexte. Úspech pre slovenský jazyk sú väčšinou založené na slovníku spoločnosti Google poukazuje na fakt, že s veľkým základných slovných tvarov (lem) skombinovanom množstvom dostupných dát a s efektívnymi technikami so súborom morfologických pravidiel, ktorý umožňuje na zaraďovanie týchto dát môže prevažne štatisticky analýzu alebo generovanie všetkých (správnych) založený prístup viesť k uspokojivým výsledkom. slovných tvarov. Pre sofistikovanejšie však nevyhnutné Hoci sa zdá tento jednoduchý uspokojivý, má dve zásadné nevýhody. Prvou požadovanie integrovať informácií hlbšie je jazykové nevýhodou je nesprávne určenie zdanlivo správnych vedomosti. Experimenty vo výskumných laboratóriách slovných tvarov v dôsledku nesprávneho kontextu. s Druhou nevýhodou je neschopnosť rozlišovať skutočné a ontologických jazykových zdrojov ako WordNet pravopisné chyby od správnych slovných tvarov, ktoré ukázali, že je možné zvýšiť úspešnosť vyhľadávania však nie sú obsiahnuté v slovníku. Takéto slová však umožnením vyhľadať stránku na základe synoným budú vzhľadom na prirodzené pribúdanie nových slov, vyhľadávaných výrazov, vedeckých a technických termínov v lexikóne existovať a nukleárna energia alebo dokonca aj nie veľmi stále. súvisiacich pojmov. Okrem kontroly pravopisu a autorskej podpory je Budúca generácia vyhľadávačov musí zahrnúť oveľa funkcia kontrola pravopisu a gramatiky takisto dôležitá sofistikovanejšie jazykové technológie. v oblasti výučby jazyka. Aplikácie na kontrolu gramatiky požiadavka nepozostáva zo zoznamu kľúčových slov, a pravopisu taktiež dokážu pri preklepoch navrhnúť ale z otázky alebo z iného typu vety, získavanie správne slovo, napríklad Google frázou „Mali ste na relevantnej odpovede na danú požiadavku si vyžaduje mysli…“ syntaktickú a sémantickú analýzu tejto vety, ako používaním strojovo čitateľných napr. jadrová, tezaurov atómová Ak hľadaná 20 Webové stránky Predbežné spracovanie Sémantická analýza Indexácia Párovanie & relevancia Predbežné spracovanie Analýza hľadaného výrazu Hľadaný výraz Výsledky vyhľadávania 5: Architektúra vyhľadávania na webe aj dostupnosť indexu, ktorý by počítal s rýchlym informácie. To sa často označuje termínom získavanie získaním relevantných dokumentov. informácií a zahŕňa vyhľadávanie a posúdenie Predstavte si napríklad zadanú vstupnú požiadavku „Dajte mi relevantných dokumentov. zoznam spoločností, ktoré boli za posledných (niektorí získať zoznam spoločností, potrebujeme extrahovať ľudia by tu dokonca použili výraz „ostatných“ – ideálny informácie, že určitý reťazec slov v dokumente vyhľadávací systém by si s tým vedel poradiť) päť rokov sa vzťahuje na názov spoločnosti. odkúpené inými spoločnosťami“. informácie nám sprístupňujú takzvané rozpoznávače Pre uspokojujúcu odpoveď je potrebná syntaktická analýza na určenie gramatických štruktúr vety a stanovenie faktu, že zadávateľ hľadá spoločnosti, ktoré boli odkúpené, a nie spoločnosti, ktoré ich odkúpili. Podobne musí byť spracovaný aj výraz posledných päť rokov, aby sa zistilo, na ktoré roky sa výraz vzťahuje. Navyše, ak chceme Tento druh pomenovaných entít. Ešte náročnejší je pokus spojiť zadávateľovu požiadavku s dokumentmi napísanými v inom jazyku. Pre medzijazykové získanie informácií musí byť požiadavka automaticky preložená do všetkých možných východiskových jazykov a získaná informácia musí byť prenesená späť do cieľového jazyka. Rastúce percento Budúca generácia vyhľadávačov musí zahrnúť oveľa sofistikovanejšie jazykové technológie dát dostupných v netextových formátoch zvyšuje dopyt po službách umožňujúcich získavanie multimediálnych informácií, tzn. vyhľadávanie obrázkov, zvukových Pre úspešné vyhľadanie požadovanej informácie a obrazových dát. Pri zvukových a obrazových súboroch sa napokon musí spracovaná požiadavka porovnať ide o modul rozpoznávania reči na konvertovanie s obrovským množstvom neštruktúrovaných dát, rečového obsahu do textovej alebo fonetickej podoby, v ktorých by sa vyhľadala aspoň časť požadovanej ktorá by zodpovedala požiadavkám zadávateľa. 21 Na Slovensku existovali viaceré firmy, ktoré rozvíjali SAV, kde sa v roku 2006 začali venovať oblasti technológie vyhľadávania, alebo sa takisto používali spracovania písaného prirodzeného jazyka. V tom čase vyhľadávacie technológie vyvinuté českými firmami. sa inicioval aj vznik workshopov WIKT [42], ktorých Prvý slovenský vyhľadávač , ktorý začal brať do súčasťou je v každom ročníku vydávanie niekoľkých úvahy slovenskú morfológiu (systém bol vyvinutý na článkov alebo celej sekcie venovanej spracovaniu Matematicko-fyzikálnej fakulte Karlovej univerzity slovenského jazyka. Výskum v ÚI SAV v spolupráci v Prahe), bol morfeo.sk, prevádzkovaný internetovým s Univerzitou Pavla Jozefa Šafárika v Košiciach sa od portálom centrum.sk, ktorý začal poskytovať fulltextové r. 2006 rozvíjal hlavne v rámci projektu NAZOU vyhľadávanie webových stránok s doménou .sk [43], kde sa tvorili nástroje na získanie, spracovanie, v roku 2003. Na vyhľadávanie ohýbaných slov organizovanie a prezentáciu informácií z internetu. využíval lematizáciu a morfologickú anotáciu, aby Konkrétnou aplikáciou boli pracovné ponuky, nástroje tak používateľovi poskytol relevantnejšie výsledky sa testovali aj na textoch slovenských pracovných ako len tie, ktoré zahŕňali iba základnú formu slov. ponúk. V ÚI SAV bola vypracovaná analýza spracovania Taktiež disponoval fuzzy vyhľadávaním. Do roku 2009 slovenčiny [44] a zároveň bol vyvinutý nástroj na presiahol počet indexovaných stránok 117 miliónov, extrakciu informácií Ontea [45, 46, 47], ktorý bol pretože už vtedy Google zahrnul podporu slovenskej integrovaný s nástrojmi na identifikáciu jazyka [48] morfológie, prevýšil počet indexovaných stránok a nástrojom na lematizáciu [49]. a centrum.sk prešlo na Google Vyhľadávanie. V tejto oblasti pracuje napríklad Forma, s. r. o. [41], ktorá na báze dát z Jazykovedného ústavu Ľ. Štúra SAV vypracovala lingvistické moduly: jazykový korektor, rozdeľovač slov, lematizátor a slovník synoným. Takisto má samostatné produkty na fulltextové vyhľadávanie v slovenčine a doteraz prevádzkuje vyhľadávanie v starších verziách niektorých slovníkov. Ontea pracuje na základe hľadania vzorov. Tieto vzory môžu byť jednak jazykovo závislé vzory, ako napríklad použitie predložiek, vetná skladba, ale aj jednoduchšie vzory typu použitie veľkých písmen, skratiek, ako napríklad s. r. o., a. s. na hľadanie firiem, Sk, SKK, EUR, EURO, € na hľadanie ceny, alebo skratiek slovenských krstných mien na hľadanie osôb v texte. Princíp je platný pre rôzne jazyky, ale vzory sa musia tvoriť pre Pozornosť pri rozvoji vyhľadávacích technológií konkrétny jazyk, napríklad slovenčinu. V súčasnosti sa kladie na poskytovanie doplnkov a moderných bol nástroj Ontea rozvíjaný na spracovanie e-mailovej vyhľadávačov pre záujmovo špecifické portály, pričom komunikácie. V rámci projektu AIIA [50, 51] bol sa čo najviac využíva sémantika relevantná pre danú systém otestovaný na slovenských e-mailoch firmy oblasť. Vzhľadom na vysoké nároky na výpočtový Anaso a združenia SANET. Ontea používa nielen výkon sa takéto vyhľadávače využívajú len v relatívne vzory, ale aj slovníky urbanoným (gazetteers), ako aj ich malých textových korpusoch. Časom spracovania kombináciu na extrakciu a identifikáciu entít v texte. a tisícnásobným rozsahom ľahko prekoná bežný Pri použití slovníkov (ale aj niektorých typov hľadania) štatistický vyhľadávač, aký poskytuje napríklad nastáva problém identifikácie entity, ak je v inom ako Tieto vyhľadávače majú vysoké nároky aj základnom tvare, preto je vhodné použiť lematizátor. na modelovanie tematicky zameranej domény, čo Keďže ide hlavne o názvoslovné entity ako ľudia, znemožňuje používať tieto mechanizmy na webe. Tejto miesta, názvy produktov, mená projektov alebo služieb, oblasti výskumu sa venuje hlavne Ústav informatiky je ťažké ich lematizovať. Google. Tieto problémy sa zatiaľ 22 nepodarilo uspokojivo vyriešiť, je však možné riešiť ich systému, novým spôsobom kombinácie slovníka, tokenizácie po vzhľadom na vstup používateľa a funkčnosť systému. znakoch, lematizácie a overenia entity v slovníku. Syntéza reči (Text-to-Speech, TTS) sa uplatňuje Extrakcia entít pomocou vzorov bola použitá aj v experimente na rozsiahlych dátach, keď sa spracúvali slovenské webové stránky s cieľom extrakcie s ktorým používateľ komunikuje, na transformovanie textovej výpovede do zvukovej formy, ktorá bude pre používateľa výstupom. geografických dát (slovenských adries) a následného Jednou z najväčších výziev je vytvoriť systém vyhľadávania [52]. automatického rozpoznávania reči, ktorý by dokázal čo najpresnejšie rozpoznať používateľove slová. 4.2.3 Rečová technológia si vyžaduje buď obmedzenie možných výpovedí Rečová technológia tvorí základ na vytvorenie rozhrania, ktoré umožňuje používateľovi komunikovať so zariadeniami prostredníctvom hovoreného jazyka jednoduchšie než napríklad pomocou grafického displeja, klávesnice alebo myši. Dnes sa takéto hlasové používateľské rozhrania používajú na plne alebo čiastočne automatizované ponuky služieb poskytované spoločnosťami ich zákazníkom, zamestnancom alebo partnerom na telefóne. Obchodné činnosti, ktoré vo veľkej miere závisia od hlasových používateľských rozhraní, sú bankovníctvo, logistika, verejná doprava a telekomunikácie. Iné využitia technológie rečovej interakcie sú rozhrania pre špeciálne zariadenia, napríklad navigačné systémy do áut či uplatnenie hovoreného jazyka ako alternatívy k vstupnovýstupným modalitám grafických používateľských rozhraní, napríklad v smartphonoch alebo tabletoch. Vo svojej podstate pozostáva rečová interakcia zo štyroch rôznych technológií: Automatické rozpoznávanie To reči zodpovedá za určenie, ktoré slová v slede zvukov vypovedaných používateľom boli aktuálne hovorené. používateľa na limitovaný súbor kľúčových slov, alebo manuálne vytvorenie jazykových modelov, ktoré by pokrývali veľké množstvo prirodzených výpovedí v jazyku používateľa. Základnou požiadavkou pre dobrý výkon je takisto dobre natrénovaný akustický model založený na obrovskom množstve zaznamenaných dát rozlišujúcich prízvuk, vekovú skupinu, pohlavie atď. Kým prvá možnosť vedie skôr k strnulému a nepružnému využívaniu hlasového používateľského rozhrania a pravdepodobne by ju používatelia dobre neprijali, tvorenie, ladenie a zlepšovanie akustických a jazykových modelov by zas výrazne zvýšilo náklady. Hlasové používateľské rozhrania, ktoré využívajú jazykové modely a dovoľujú na začiatku používateľovi flexibilne vyjadriť svoju potrebu – po vyzvaní napríklad frázou „Ako vám môžem pomôcť“ – vykazujú lepšiu možnosť automatizácie, aj lepšiu akceptáciu používateľmi, a teda majú výhodu oproti než menej flexibilnému prístupu riadeného dialógu. Výnimku tvoria tzv. embedded systémy, ktoré vyžadujú na ovládanie relatívne málo príkazov. V takom prípade je použitie jazykových modelov skôr nevýhodou a aj dnes sa takéto systémy úspešne budujú s použitím gramatík. Syntaktická analýza a sémantická interpretácia Pre výstupné časti hlasového používateľského rozhrania sa zaoberajú analyzovaním syntaktickej štruktúry inklinujú spoločnosti k používaniu vopred nahraných výpovede používateľa a jej interpretáciou podľa výpovedí profesionálov – ideálne registrovaných účelu príslušného systému. hovoriacich. V prípade statických výpovedí, ktorých Dialógový manažment je potrebný pri určovaní obsah nezávisí od kontextu použitia alebo od osobných opatrení, ktoré by sa mali podniknúť na strane údajov daného používateľa, bude výsledkom vysoká 23 Hovorený výstup Hovorený vstup Syntéza reči Spracovanie signálu Fonetický prepis & výber intonácie Porozumenie prirodzenému jazyku a dialóg v prirodzenom jazyku Rozpoznávanie 6: Architektúra jednoduchého dialógového systému spokojnosť používateľa. Čím dynamickejší bude obsah napríklad parlamentné diskusie, sa ústav pomocou výpovede, tým väčšie problémy môže mať používateľ existujúcich nástrojov na rozpoznávanie reči snaží s nejasnou prozódiou vyplývajúcou z reťazenia vytvoriť širšie použiteľné akustické modely pre jednotlivých zvukových segmentov. Dnešné systémy prepis diktovaného textu. na syntézu reči sa vzhľadom na optimalizovateľnú na rozpoznávanie reči závislé od rečníka. prozodickú prirodzenosť dynamických výpovedí javia elektroniky a multimediálnych komunikácií Slovenskej ako lepšie. Technickej univerzity v Bratislave sa sústreďuje hlavne Trh technológií rečovej interakcie prešiel počas poslednej dekády silnou štandardizáciou rozhraní medzi odlišnými technologickými komponentmi, ako aj štandardmi na tvorenie daných sovérových artefaktov pre danú aplikáciu. Za posledných desať rokov takisto prebieha silná konsolidácia trhu, hlavne v oblasti automatického rozpoznávania reči a syntézy reči. Národné trhy krajín G20, tzn. ekonomicky silných krajín so značnou populáciou, sú celosvetovo ovládané niekoľkými veľkými súpermi, pričom Nuance, Google a Microso patria dnes medzi najvýznamnejšie. Na Slovensku má rozpoznávanie reči dlhú históriu, Hlavný dôraz sa kladie Katedra na spracovanie rečového signálu v podmienkach hluku (detekcia reči/hluku, extrahovanie atď.). Okrem mnohého iného vytvorila katedra aj početné malé systémy na rozpoznávanie reči, aby mohla porovnávať ich výkonnosť a použiteľnosť na rozpoznávanie voľnej reči v slovenskom jazyku. Na Technickej univerzite v Košiciach existujú viaceré katedry, ktoré sa sústreďujú na automatické rozpoznávanie reči. Katedra telekomunikácií Slovenskej technickej univerzity sa pôvodne zameriavala na základný výskum digitálneho spracovania rečového signálu, ktorý postupne svoj výskum zamerala na rozvoj rečových interaktívnych systémov. ale vykonávalo sa len na pôde univerzít a vo vedeckých inštitúciách. Väčšina z nich sa sústreďuje Katedra vytvorila v spolupráci so Slovenskou na základný výskum a riešenia špecifických problémov akadémiou vied, Slovenskou technickou univerzitou rozpoznávania reči. a Žilinskou univerzitou inteligentný komunikačný Oddelenie analýzy a syntézy reči Ústavu informatiky Slovenskej akadémie vied rečový systém, ktorý je prístupný verejnosti ako účastník projektu SpeechDat-E sa sústreďuje v slovenskom jazyku a demonštruje rečové interaktívne prevažne na akustické modely telefónnych systémov. systémy pri telefonovaní. V súčasnosti je na katedre S rastúcim množstvom iných rečových nahrávok, ako jedným z jej najpozoruhodnejších produktov v oblasti 24 jazykového modelovania systém na rozpoznávanie zmeny, ktoré budú okrem vplyvov telefónu, internetu plynulej reči. a e-mailových spojení podnietené hlavne rozšírením Bázou jazykového modelu je korpus pozostávajúci z 2  109 smartphonov ako novej platformy na manažovanie tokenov. Druhé významné pracovné miesto na Technickej univerzite v Košiciach je Katedra kybernetiky a umelej inteligencie, kde bol pre slovenčinu vytvorený prvý rečový dialógový informačný systém a fonetická abeceda SAMPA. Dnes na katedre zohrávajú aktivity týkajúce sa rozpoznávania reči okrajovú rolu. Katedra aplikovanej matematiky a štatistiky na Fakulte matematiky, fyziky a informatiky Univerzity Komenského v Bratislave pracuje predovšetkým na rozpoznávaní reči prostredníctvom izolovaných slov detských hlasov. Výsledky boli aplikované vo vzdelávacom procese na verifikovanie textu čítaného deťmi. Zo zvukových dát zaznamenaných pre akustický modelový nácvik boli vytvorené len dve rečové databázy (Alica a Viktória). Hlavná inštitúcia na rozpoznávanie reči na Žilinskej univerzite je Katedra telekomunikácií a multimédií. Jej tím sa zameriava predovšetkým na spracovanie digitálneho signálu pre rozpoznanie reči a rozpoznávanie izolovaných slov pomocou použitia skrytých Markovovských modelov. Úzka spolupráca medzi Katedrou elektroniky a multimediálnych komunikácií TU v Košiciach a Oddelením analýzy a syntézy reči Ústavu informatiky Slovenskej akadémie vied vyústila do prvých viditeľných úspechov rozvoja systému na rozpoznávanie plynulej reči. Výsledkom spolupráce je automatický systém prepisovania reči, ktorý možno využiť v oblasti súdnictva. Z komerčných systémov na rozpoznávanie reči v slovenčine stojí za pozornosť produkt českej firmy Newton Technologies, ktorý možno považovať za prvý systém prepisovania v slovenčine, ktorý je nezávislý od rečníka. zákazníckych vzťahov. Tento trend ovplyvní aj využívanie technológií rečovej interakcie. Na jednej strane sa dopyt po hlasových používateľských rozhraniach na telefonickej báze postupom času zníži, na druhej strane používanie hovoreného jazyka ako užívateľsky komfortnej vstupnej modality pre smartphony výrazne získa na dôležitosti. Tento trend je podporovaný aj očividným zlepšením kvality rozpoznávania reči nezávisle od hovoriaceho, a to pre potreby diktovania, ktoré sa už ponúkajú používateľom smartphonov ako centralizované služby. Ak posunieme outsourcing rozpoznávania reči do infraštruktúry aplikácií, využitie základných lingvistických technológií pre špecifické využitie pravdepodobne v porovnaní so súčasnosťou získa na dôležitosti. 4.2.4 Strojový preklad S myšlienkou využívať digitálne počítače na preklad prirodzených jazykov prišiel v roku 1946 A. D. Booth a uchytila sa aj vďaka značnej finančnej podpore tejto oblasti v 50. a 80. rokoch 20. storočia. Napriek tomu sa strojovému prekladu nepodarilo splniť očakávania, ktoré naň boli kladené už v začiatočných rokoch po jeho vzniku. Strojový preklad jednoducho nahrádza slová jedného prirodzeného jazyka slovami iného jazyka. To sa dá využiť v oblastiach s veľmi obmedzeným, stereotypným jazykom, akým je napríklad jazyk predpovede počasia. Pre dobrý preklad menej štandardizovaných textov však treba pričleniť väčšie textové celky (frázy, vety alebo dokonca celé pasáže) k ich najbližším náprotivkom v cieľovom jazyku. Hlavný problém tkvie vo fakte, že ľudský jazyk je dvojznačný. Jazyková Odhliadnuc od súčasného stavu technológie môžeme dvojznačnosť prináša problémy na mnohých jazykových konštatovať, že v blízkej budúcnosti nastanú výrazné úrovniach, napríklad viacznačnosť slovných významov 25 na lexikálnej rovine („Leopard“ môže znamenať zviera riadeného dátami navzájom dopĺňajú, v súčasnosti sa alebo operačný systém) alebo pripojenie atribútov na vedci usilujú kombinovaním oboch metód uplatniť syntaktickej rovine ako v príkladoch: hybridné postupy. spôsobmi. To je uskutočniteľné mnohými Jedným z nich je možnosť použiť oba Otcovi priatelia neprišli, moji áno. typy systémov a nechať rozhodnúť výberový modul Otcovi priatelia neprišli, mne áno. o najvhodnejšom výstupe pre každú vetu. Pre dlhšie vety však nebude dokonalý žiadny výsledok. Lepším Jeden z možných prístupov k problému sa zakladá riešením je preto skombinovanie najlepších častí na lingvistických pravidlách. Pre preklad medzi každej vety z viacerých výstupov, čo však môže byť blízko príbuznými jazykmi (ako však aj už uvedených značne zložité, keďže korešpondujúce časti rozličných príkladoch) je prípustná aj metóda priameho prekladu. alternatív nie sú vždy zrozumiteľné a musia byť nanovo Takéto systémy založené na pravidlách analyzujú usporiadané. vstupný text a vytvárajú „prostredníka“, symbolickú V 90. rokoch 20. storočia bol navrhnutý prototyp reprezentáciu, z ktorej sa generuje text cieľového jazyka. strojového prekladu medzi blízko príbuznou češtinou Úspech týchto metód veľmi závisí od dostupnosti a slovenčinou na Karlovej univerzite v Prahe. rozsiahlych lexikónov s morfologickými, syntaktickými TEOS Trenčín uviedol na trh prvý praktický a sémantickými údajmi a aj s veľkými súbormi mnohojazyčný gramatických pravidiel vypracovaných skúsenými slovenský jazyk spolu s ich PC slovníkovým sovérom. lingvistami. Keďže však systém nepoužíval nijakú hlbšiu lingvistickú Koncom 80. rokov 20. storočia, teda v čase, keď sa analýzu a jednoducho nahrádzal slová jedného jazyka počítače začali rozmáhať a stali sa cenovo dostupnejšie, slovami druhého jazyka (zväčša obmedzené len na zvýšil sa záujem o štatistické modely pre strojový lemy), jeho uplatnenie sa obmedzovalo len na jazyky, preklad. Parametre týchto štatistických modelov sú ktoré nedisponujú bohatým morfologickým systémom, odvodené z analýzy bilingválneho textového korpusu, t.j. na angličtinu. Novšie verzie vedia prekladať webové akým je aj paralelný korpus Europarl, ktorý obsahuje stránky za behu, čo je funkcia mimoriadne užitočná pre rokovania Európskeho parlamentu v 21 európskych anglicko-slovenské preklady (zároveň jediný fungujúci jazykoch. smer prekladu). Ak dostane štatistický strojový preklad sovér strojového prekladu pre dostatok údajov, funguje dostatočne dobre na to, aby odvodil približný význam cudzieho jazyka v texte. Na rozdiel od systémov riadených znalosťami však štatistický (alebo dátami riadený) strojový preklad často generuje gramaticky nesprávne výstupy. Kvalita systémov strojového prekladu disponuje stále obrovským potenciálom na zlepšenie Na druhej strane však okrem zníženej potreby ľudského úsilia Kvalita systémov strojového prekladu disponuje stále na pravopisné písanie dokáže strojový preklad riadený obrovským potenciálom na zlepšenie. Súčasné výzvy dátami pokryť také špecifiká jazyka, akými sú napríklad spočívajú hlavne v adaptabilite jazykových zdrojov idiomatické výrazy, ktoré zas chýbajú v systémoch na danú doménu alebo používateľskú oblasť a v ich riadených vedomosťami. integrácii do existujúceho pracovného toku výrazových Keďže sa silné a slabé stránky strojového prekladu základní a prekladových pamätí. Väčšina súčasných riadeného systémov (nielen tých orientovaných na slovenský vedomosťami a strojového prekladu 26 Východiskový text Analýza textu (formátovanie, morfológia, syntax, atď.) Štatistický strojový preklad Pravidlá pre preklad Cieľový text Posteditácia textu (formátovanie, kontext, atď.) 7: Strojový preklad (štatistický; založený na pravidlách) jazyk) je orientovaná na angličtinu. Najvyššiu kvalitu počítačovej lingvistiky. prekladu z/do angličtiny ponúka predovšetkým Google Zodpovedanie otázok sa stalo aktívnou oblasťou Translate. výskumu, pre ktorý boli vytvorené anotované korpusy Dostupnosť veľkého množstva bilingválnych textov je a ktorý odštartoval vedecké súperenie. Idea spočíva v štatistickom strojovom preklade skutočne kľúčová. v posune od vyhľadávania pomocou klávesnice (na Pre slovenčinu sa v súčasnosti korpus paralelných ktoré prístroj odpovedá celým súborom potenciálne textov spolu s mnohými inými jazykmi len buduje. relevantných dokumentov) k variantu, v ktorom Najviac dát – spolu milióny párov viet – je dostupných používateľ kladie konkrétnu otázku a systém generuje v slovensko-českom a slovensko-anglickom paralelnom jedinú odpoveď: korpuse, ktorý sa zostavuje v Jazykovednom ústave Ľ. Štúra. Obsah korpusu tvorí prevažne beletria a vety sú automaticky zarovnané. Na obrázku 1 (s. 28) je tabuľka, ktorá bola vytvorená v rámci projektu Euromatrix+, znázorňuje presnosť prekladov medzi 22 jazykmi z 23 oficiálnych európskych jazykov (neporovnávala sa írčina). Výsledky sa hodnotili podľa BLUE skóre (čím viac bodov, tým lepší preklad) [54]. Za bežných podmienok dokáže človek získať približne 80 bodov. Otázka: Koľko rokov mal Neil Armstrong, keď vystúpil na Mesiac? Odpoveď: 38. Pokiaľ to súvisí s už spomínanou základnou oblasťou vyhľadávania na webe, zodpovedanie otázok je predovšetkým zastrešujúcim výrazom výskumných otázok typu: Aké druhy otázok by sa mali rozlišovať a ako by sa malo s nimi zaobchádzať, ako sa môže súbor dokumentov, ktorý potenciálne obsahuje odpoveď, analyzovať a porovnávať (dávajú tieto dokumenty 4.3 ĎALŠIE APLIKAČNÉ OBLASTI konfliktnú odpoveď?) a ako môže byť špecifická Tvorba aplikácií jazykových technológií v sebe zahŕňa z dokumentu bez neoprávneného ignorovania kontextu. informácia – odpoveď – spoľahlivo extrahovaná množstvo čiastkových úloh, ktoré síce v interakcii s používateľom nevyjdú vždy na povrch, ale poskytujú rozličné funkcie skrytého systému. Koncipujú preto v danej oblasti výskumu dôležité otázky, ktoré sa stali samostatnými akademickými subdisciplínami V Centre pre informačné technológie v Košiciach bola vyvinutá softvérová knižnica, ktorá spravuje textové dokumenty 27 EN BG DE CS DA EL ES ET FI FR HU IT LT LV MT NL PL PT RO SK SL SV EN – 61.3 53.6 58.4 57.6 59.5 60.0 52.0 49.3 64.0 48.0 61.0 51.8 54.0 72.1 56.9 60.8 60.7 60.8 60.8 61.0 58.5 BG 40.5 – 26.3 32.0 28.7 32.4 31.1 24.6 23.2 34.5 24.7 32.1 27.6 29.1 32.2 29.3 31.5 31.4 33.1 32.6 33.1 26.9 DE 46.8 38.7 – 42.6 44.1 43.1 42.7 37.3 36.0 45.1 34.3 44.3 33.9 35.0 37.2 46.9 40.2 42.9 38.5 39.4 37.9 41.0 CS 52.6 39.4 35.4 – 35.7 37.7 37.5 35.2 32.0 39.5 30.0 38.9 37.0 37.8 37.9 37.0 44.2 38.4 37.8 48.1 43.5 35.6 DA 50.0 39.6 43.1 43.6 – 44.5 44.4 37.8 37.9 47.4 33.0 45.8 36.8 38.5 38.9 45.4 42.1 42.8 40.3 41.0 42.6 46.6 EL 41.0 34.5 32.8 34.6 34.3 – 39.4 28.2 27.2 42.8 25.5 40.6 26.5 29.7 33.7 35.3 34.2 40.2 35.6 33.3 34.0 33.3 ES 55.2 46.9 47.1 48.9 47.5 54.0 – 40.4 39.7 60.9 34.1 26.9 21.1 8.0 48.7 49.7 46.2 60.7 50.4 46.2 47.0 46.6 ET 34.8 25.5 26.7 30.7 27.8 26.5 25.4 – 34.9 26.7 29.6 25.0 34.2 34.2 26.9 27.5 29.2 26.4 24.6 29.8 31.1 27.4 Cieľový jazyk – Target language FI FR HU IT LT LV 38.6 50.1 37.2 50.4 39.6 43.4 26.7 42.4 22.0 43.5 29.3 29.1 29.5 39.4 27.6 42.7 27.6 30.3 30.5 41.6 27.4 44.3 34.5 35.8 31.6 41.3 24.2 43.8 29.7 32.9 29.0 48.3 23.7 49.6 29.0 32.6 28.5 51.3 24.0 51.7 26.8 30.5 37.7 33.4 30.9 37.0 35.0 36.9 – 29.5 27.2 36.6 30.5 32.5 30.0 – 25.5 56.1 28.3 31.9 29.4 30.7 – 33.5 29.6 31.9 29.7 52.7 24.2 – 29.4 32.6 32.0 34.4 28.5 36.8 – 40.1 32.4 35.6 29.3 38.9 38.4 – 25.8 42.4 22.4 43.7 30.2 33.2 29.8 43.4 25.3 44.5 28.6 31.7 29.0 40.0 24.5 43.2 33.2 35.6 29.2 53.2 23.8 52.8 28.0 31.5 26.2 46.5 25.0 44.8 28.4 29.9 28.4 39.4 27.4 41.8 33.8 36.7 28.8 38.2 25.7 42.3 34.6 37.3 30.9 38.9 22.7 42.0 28.2 31.0 MT 39.8 25.9 19.8 26.3 21.1 23.8 24.6 20.5 19.4 25.3 18.1 24.6 22.2 23.3 – 22.0 27.9 24.8 28.7 28.5 30.0 23.7 NL 52.3 44.9 50.2 46.5 48.5 48.9 48.8 41.3 40.6 51.6 36.1 50.5 38.1 41.5 44.0 – 44.8 49.3 43.0 44.4 45.9 45.6 PL 49.2 35.1 30.2 39.2 34.3 34.2 33.9 32.0 28.8 35.7 29.8 35.2 31.6 34.4 37.1 32.0 – 34.5 35.8 39.0 38.2 32.2 PT 55.0 45.9 44.1 45.7 45.4 52.5 57.3 37.8 37.5 61.0 34.2 56.5 31.6 39.6 45.9 47.7 44.1 – 48.5 43.3 44.1 44.2 RO 49.0 36.8 30.7 36.5 33.9 37.2 38.1 28.0 26.5 43.8 25.7 39.3 29.3 31.0 38.9 33.0 38.2 39.4 – 35.3 35.8 32.7 SK 44.7 34.1 29.4 43.6 33.0 33.1 31.7 30.6 27.3 33.1 25.6 32.5 31.8 33.3 35.8 30.1 38.2 32.1 31.5 – 38.9 31.3 SL 50.7 34.1 31.4 41.3 36.2 36.3 33.9 32.9 28.2 35.6 28.2 34.7 35.3 37.1 40.0 34.6 39.8 34.4 35.1 42.6 – 33.5 SV 52.0 39.9 41.2 42.9 47.2 43.3 43.7 37.3 37.6 45.8 30.5 44.3 35.3 38.0 41.6 43.6 42.1 43.9 39.4 41.8 42.7 – 8: Strojový preklad medzi 22 jazykmi EU – Machine Translation between 22 EU-languages [53] To na druhej strane súvisí s úlohou získavania JBOWL ( Java knižnica Bag-Of-Words) sovérová informácií, s oblasťou, ktorá sa tešila veľkej popularite knižnica bola vyvinutá v Centre pre informačné a vplyvu v období „štatistického obratu“ v počítačovej technológie (FEI-CIT) v Košiciach na podporu lingvistike v raných 90. rokoch 20. storočia. NLP Extrahovanie informácií sa sústreďuje na identifikáciu modulárny systém umožňujúci spravovanie textových špecifických dokumentov. informácií v špecifických triedach Text Mining aplikácií. JBOWL je Poskytuje funkcie a prostriedky dokumentov; akými by mohli byť napríklad detekcia podporujúce spracovanie textov prirodzeného jazyka kľúčových hráčov prevzatia podnikov, ktorí sú uvedení (napr. tokenizáciu, morfologickú analýzu, lematizáciu, v novinových článkoch. Druhý variant, na ktorom sa viacznačnosť, syntaktickú analýzu založenú na sieťach pracovalo, sú správy o teroristických útokoch, v prípade ATN, identifikáciu klasterov a fráz, meranie závažnosti ktorých problémom zostáva zmapovanie textu do termínov a ich označovanie), šablóny špecifikujúcej páchateľa, cieľ, čas a miesto útoku, a ťaží z neštruktúrovaných textových dokumentov. ako aj jeho dôsledky. Doménovo špecifická náplň Okrem iného systém implementuje viaceré algoritmy šablóny je ústrednou charakteristikou extrahovania kontrolovaného a nekontrolovaného strojového učenia informácií, ktorá je aj z tohto dôvodu ďalším príkladom s nastaviteľnými vstupnými parametrami a metódami „zákulisnej“ technológie, ktorá predstavuje dobre na hodnotenie kvality modelov Text Miningu. ohraničenú oblasť výskumu, ale z praktických dôvodov musí byť vsadená do vhodného aplikačného prostredia. objavuje znalosti Dve hraničné oblasti, ktoré niekedy hrajú rolu samostatnej aplikácie a inokedy rolu podporného, 28 skrytého komponentu, sú sumarizovanie a generovanie textu. Sumarizovanie zjavne súvisí s úlohou skracovania textu a ponúka sa napríklad aj ako funkcia MS Wordu. Pracovníci Ústavu informatiky SAV vedú kurz získavania informácií, grafových algoritmov na ich podporu a spracovania veľkého množstva dát Pracuje prevažne na základe štatistických metód, pričom najprv identifikuje „dôležité“ slová v texte (napríklad slová, ktoré sú v tomto texte vysoko frekventované, ale výrazne menej používané v bežnom jazyku), a následne určuje tie vety, ktoré obsahujú veľa „dôležitých“ slov. Tieto vety sú v dokumente Od roku 2007 viedli výskumníci z Ústavu informatiky vyznačené alebo sú z neho extrahované a použité na Slovenskej akadémie vied (Michal Laclavík a Martin tvorbu sumáru. V tomto variante, ktorý je doteraz Šeleng) najpoužívanejší, sa sumarizovanie rovná extrahovaniu STU kurz získavania informácií, v ktorom sa viet: text je redukovaný na podskupinu jeho viet. zameriavali na problematiku získavania a extrahovania Všetky komerčné sumarizéry využívajú práve tento informácií [55], grafových algoritmov na ich podporu nápad. Alternatívny postup, ktorému sa venuje len a spracovania veľkého množstva dát. Študenti riešia časť výskumu, spočíva v aktuálnej syntéze noých viet, v tejto doméne rozličné projekty, pričom viacerí t. j. buduje súhrn viet, ktoré sa nemusia ukázať v takejto používajú slovenské zdroje, prípadne, niektorí riešia forme vo východiskovom texte. Takýto postup si však priamo problémy spracovania slovenského jazyka. vyžaduje určité hlbšie porozumenie textu a je oveľa Ako príklad uvádzame viaceré projekty zamerané na menej priamočiary. Textový generátor ako celok vo vytvorenie štatistického, slovníkovo orientovaného väčšine prípadov nie je samostatnou aplikáciou, ale alebo algoritmického stemera založeného na projektoch je včlenený do väčšieho sovérového prostredia, ako Snowbal alebo Egothor, ako aj projekty zamerané napríklad do klinického informačného systému, kde sa na určovanie účinnosti a štatistiky pri jednoduchých údaje o pacientoch zhromažďujú, skladujú, spracúvajú, stemeroch, ktoré fungujú na princípe vynechania pričom generovanie správ je len jednou z mnohých samohlások, diakritických znamienok, celých slovných funkcií. zakončení atď. na Fakulte informačných technológií Takisto sem patria aj súbežne prebiehajúce projekty štatistických prekladov alebo 4.4 JAZYKOVÉ TECHNOLÓGIE VO VZDELÁVANÍ tvorba automatického slovníka, ktorý prekladá medzi slovenčinou a inými jazykmi (angličtinou, češtinou). Napokon sú to projekty využívajúce slovníky alebo frekvenčné jazykové slovníky pre aplikácie ako T9, Jazykové technológie predstavujú vysoko interdisciplinárnuextrahovanie pomenovaných entít s použitím metód oblasť, ktorá si okrem iného vyžaduje expertízy strojového učenia, knižnice ako OpenNLP, tvorba lingvistov, vedcov výpočtovej techniky, matematikov, filozofov, psycholingvistov a neurológov. Jazykové technológie si na slovenských fakultách stále hľadajú pevné miesto. morfologického analyzátora, ako aj extrahovanie udalostí z e-mailov alebo zo slovenských webových stránok a pod. Dodnes neexistuje žiadny pravidelný študijný program počítačovej lingvistiky. 29 4.5 ŠTÁTNE PROGRAMY A INICIATÍVY Ministerstvom kultúry SR a SAV. V rokoch 2003–2006 sa v rámci štátneho programu výskumu a vývoja Aktuálne otázky rozvoja spoločnosti Jazykové technológie a ich vývoj sa na Slovensku stále považujú za súčasť vedy a výskumu. Zaraďujú sa najmä do oblasti aplikovaného výskumu, a to v rámci lingvistiky (predovšetkým lexikografie) alebo informatiky. Kontakt s komerčnou sférou je nedostatočný až sporadický. V súčasnosti sa však začínajú jazykové technológie v značnej miere využívať v rôznych sovérových aplikáciách. Prvé veľké projekty zamerané na jazykové technológie a zdroje na Slovensku boli osobitne schválené a financované vládou. Išlo o projekty Vybudovanie Národného korpusu sloenského jazyka a elektronizácia jazykovedného výskumu v rokoch 2002–2006 a Komplexné spracovanie sloenského jazyka a jeho elektronizácia na účely jazykovedného výskumu. Oba projekty sa realizovali v Jazykovednom ústave Ľudovíta Štúra Slovenskej akadémie vied. Projekt Vybudovanie Národného korpusu sloenského jazyka a elektronizácia jazykovedného výskumu v rokoch 2002–2006 bol schválený uznesením vlády č. 137/2002. Jeho cieľom bolo vybudovať reprezentatívny korpus slovenského jazyka, ktorý je nevyhnutným základom a materiálovým zdrojom pre všetky lingvistické výskumy a výskumy počítačového spracovania prirodzeného jazyka. Jazykový materiál korpusu je základnou bázou pri tvorbe veľkého lexikografického diela – Slovníka súčasného slovenského jazyka. V rámci projektu sa vytvorilo oddelenie Slovenského zároveň realizovala úloha č. 2003SP200280307 Komplexné spracovanie sloenského jazyka a jeho elektronizácia na účely jazykovedného výskumu. Vďaka riešeniu tejto úlohy sa mohli vyvíjať potrebné nástroje na počítačové spracovanie slovenského jazyka a rozširovať ďalšie zdroje: morfologická a syntaktická anotácia, elektronické lingvistické zdroje, terminologická databáza a pod. Výsledky tohto projektu sa využívajú a ďalej rozvíjajú v pokračujúcom projekte a našli si cestu aj do komerčnej sféry. Ďalším významným projektom v spracovaní slovenského jazyka bol projekt APD – Automatický prepis diktátu pre Ministersto spraodliosti Sloenskej republiky koordinovaný Oddelením analýzy a syntézy reči Ústavu informatiky Slovenskej akadémie vied v spolupráci s Katedrou elektroniky a multimediálnych komunikácií Technickej univerzity v Košiciach. Projekt sa realizoval v rokoch 2009–2011. Cieľom bolo vytvoriť kompletný systém na prepis hovoreného slovenského jazyka, špeciálne v oblasti súdnictva. Projekt bol financovaný Ministerstvom spravodlivosti Slovenskej republiky. V súčasnosti sa systém začína využívať v pilotnej prevádzke na súdoch Slovenskej republiky. Tieto projekty boli na Slovensku doteraz jedinou významnou iniciatívou v oblasti počítačového spracovania slovenčiny. Pripravili východisko pre hlbší výskum, ako aj rozmach komerčných projektov v tejto oblasti. Financovanie ďalšieho výskumu je však jednoznačne nevyhnutné. národného korpusu, ktoré sa následne stalo vedúcim pracoviskom v oblasti spracovania prirodzeného jazyka na Slovensku. V rokoch 2007–2011 (druhá fáza) projekt pokračoval pod názvom Budovanie Sloenského národného korpusu a elektronizácia jazykovedného 4.6 DOSTUPNOSŤ NÁSTROJOV A ZDROJOV výskumu na Sloensku na základe zmluvy a jeho Na obrázku 9 ponúkame sumarizáciu súčasného spolufinancovaní medzi Ministerstvom školstva SR, stavu jazykových technológií pre slovenčinu. Kritériá 30 Kvalita Pokrytie Zrelosť Udržateľnosť Adaptabilita 1 2 2 3 3 2 Syntéza reči 3 3 3 3 3 3 3 Gramatická analýza 2 2 3 2 2 3 3 Sémantická analýza 1 2 1 1 1 3 3 Generovanie textu 1 1 1 1 0 1 1 Strojový preklad 2 2 2 2 2 1 2 Dostupnosť 3 Kvantita Rozpoznávanie reči Jazyková technológia: Nástroje, technológie a aplikácie Jazykové zdroje: Zdroje, dáta a znalostné databázy Textové korpusy 2 4 4 5 4 4 4 Hovorené korpusy 3 4 2 2 3 3 3 Paralelné korpusy 2 3 2 2 2 2 3 Lexikálne zdroje 3 2 3 4 3 4 3 Gramatiky 2 3 3 2 1 2 1 9: Stav podpory jazykových technológií v slovenčine existujúcich nástrojov a zdrojov v rozmedzí 0 (veľmi opätovné použitie a prispôsobenie potrebám nízky) až 6 (veľmi vysoký) navrhli poprední odborníci. používateľa (v prípade, že tam sú napr. dva rôzne 1. Kvantita: Existuje pre daný jazyk nejaký nástroj/zdroj? Čím viac nástrojov/zdrojov existuje, tým je hodnotenie vyššie. uzavretý, do tabuľky zadáme priemer, t. j. 3) 3. Kvalita: Do akej miery sa jednotlivé kritériá správania nástrojov a ukazovatele kvality zdrojov 0: neexistujú žiadne nástroje/zdroje 6: mnoho nástrojov/zdrojov, veľká rôznorodosť 2. Dostupnosť: Sú nástroje/zdroje dostupné? zdroje, jeden z nich úplne otvorený a druhý úplne – t. j. sú Open Source voľne použiteľné na akejkoľvek približujú ku kvalite najlepších nástrojov, aplikácií či zdrojov? dostupných Sú tieto nástroje/zdroje aktuálne a udržiavané? platforme alebo sú dostupné len za vysokú cenu, 0: amatérsky nástroj/zdroj resp. za obmedzených podmienok? 6: kvalitný nástroj/zdroj, anotácie v zdroji sa 0: takmer všetky nástroje/zdroje sú dostupné len za vysokú cenu kvalitou rovnajú ručným anotáciám 4. Pokrytie: Do akej miery spĺňajú najlepšie 6: veľké množstvo nástrojov/zdrojov je voľne dostupné nástroje príslušné kritériá pokrytia (štýlov, dostupných vďaka licenciám OpenSource, ako žánrov, druhov textov, jazykových javov, typov napr. vstupov/výstupov, počtu jazykov podporovaných Creative Commons, ktoré umožňujú 31 MT systémami atď.)? Do akej miery sú zdroje reprezentantmi daných jazykov, resp. subjazykov? 0: zdroj/nástroj určený na špecifické účely, osobité prípady, malé pokrytie, používa sa len vo veľmi špecifických, neobvyklých prípadoch 6: zdroj so širokým pokrytím, robustný nástroj, široko uplatniteľný, veľké množstvo podporovaných jazykov 5. Vyspelosť: Dajú sa najlepšie dostupné nástroje/zdroje priamo použiť alebo sa musia upraviť? Je výkon takýchto technológií dostatočný a použiteľný? Alebo sú to len prototypy, ktoré sú nevhodné pre produktívne systémy? Ukazovateľom vyspelosti môže byť prijatie nástrojov/zdrojov do komunity a ich úspešné používanie v systémoch jazykových technológií. 0: atď.? 0: je prakticky nemožné adaptovať nástroj/zdroj na nové úlohy, dokonca ani s použitím veľkého množstva zdrojov či človekohodín 6: vysoká úroveň adaptabilnosti; nástroje/zdroje sa dajú veľmi jednoducho a efektívne adaptovať Tabuľka sa dá zhrnúť do niekoľkých kľúčových bodov: Môže sa nástroj/zdroj považovať za vyspelý, stabilný a pripravený na trh? úlohy/domény/žánre/typy textov/prípady použitia predbežný prototyp, amatérsky systém, Na Slovensku existuje niekoľko špecializovaných kvalitných korpusov, ale dosiaľ tu nie je dostupný žiaden veľký, syntakticky anotovaný korpus. Referenčným korpusom pre slovenčinu je Slovenský národný korpus. Kvôli licenčným obmedzeniam je však prístupné len jeho vyhľadávacie rozhranie. Na druhej strane, korpus hovorených textov nepodlieha zákonu o ochrane autorských práv a je verejne dostupný. Jeho rozsah je však oproti rozsahu korpusu písaných textov nepatrný. overenie koncepcie Mnohé zdroje sú neštandardizované, t. j. aj keď 6: okamžite integrovateľný/použiteľný prvok existujú, nie sú udržiavané. Na štandardizáciu dát systému 6. Udržateľnosť: Ako sa dá nástroj/zdroj udržiavať, resp. integrovať do súčasných informačných systémov? Spĺňa nástroj/zdroj určitú úroveň udržateľnosti vzhľadom na dokumentáciu/manuály, vysvetlenie prípadov použitia, front-endy, GUI atď.? Využíva daný nástroj štandardné/najspoľahlivejšie programovacie jazyky (napr. Java EE)? Existujú technické/výskumné normy, resp. kvázinormy? Ak áno, vyhovuje nástroj/zdroj týmto normám (dátové formáty a pod.)? 0: súkromné zdroje, dátové formáty a API ad hoc 6: zdroje úplne vyhovujúce normám, kompletná dokumentácia 7. Adaptabilnosť: Do akej miery sa dajú najlepšie nástroje/zdroje adaptovať, resp. rozšíriť na nové a výmenu formátov je nevyhnutné spoločné úsilie a iniciatíva. Spracovať sémantiku je ťažšie ako spracovať syntax; spracovať textovú sémantiku je ťažšie než spracovať lexikálnu a vetnú sémantiku. Slovenčina má ontologický zdroj (zmapovaný na anglické ontologické zdroje), no jeho pokrytie je obmedzené. V zmysle reprezentácie vedomostí o svete existujú štandardy pre sémantiku (RDF, OWL, atď.), ktoré sa však ťažko aplikujú na úlohy NLP. Spracovanie ako písaného spracovanie textu hovoreného je rozvinutejšie textu (najmä rozpoznávania reči). V slovenčine chýbajú mnohé zdroje, ktoré sa v iných jazykoch považujú za štandard; jazykový výskum NLP je na Slovensku veľmi slabo financovaný. 32 Niektoré výskumné a vývojové aktivity pre rečovej syntézy, záber domén, počet a veľkosť slovenčinu sa realizujú v Českej republike – existujúcich hovorených korpusov, na českých univerzitách alebo v súkromnom sektore. a pestrosť dostupných na reči založených aplikácií Výskum slovenčinu Strojový preklad: Kvalita existujúcich technológií prebieha na niekoľkých univerzitách a výskumných strojového prekladu, počet pokrytých jazykových pracoviskách, no množstvo voľne dostupných párov, pokrytie lingvistických fenoménov a domén, nástrojov a dát je obmedzené. kvalita a veľkosť existujúcich paralelných korpusov, Naopak, syntézu reči spracúvajú univerzity a iné množstvo a pestrosť dostupných aplikácií strojového vedecké pracoviská v oveľa menšom rozsahu. prekladu V oblasti syntézy reči sú dostupné OpenSource Textová analýza: Kvalita a pokrytie existujúcich balíky a niekoľko jednoduchých syntetizátorov reči, technológií textovej analýzy (morfológie, syntaxe, no syntéza reči s prirodzenejšími hlasmi nie je sémantiky), pokrytie lingvistických fenoménov dostupná. a domén, množstvo a pestrosť dostupných aplikácií, Slovenské dialógové systémy sú veľmi málo rozšírené kvalita a veľkosť existujúcich (anotovaných) v dôsledku nízkej dostupnosti kvalitných modulov textových korpusov, kvalita a pokrytie existujúcich rozpoznávania reči pre slovenčinu. lexikálnych zdrojov (napr. WordNet) a gramatík rozpoznávania reči pre množstvo Zdroje: Kvalita a veľkosť existujúcich textových 4.7 POROVNANIE JAZYKOV korpusov, hovorených korpusov a paralelných Súčasný stav jazykových technológií je rozdielny zdrojov a gramatík v každej krajine. Na porovnanie situácie medzi jednotlivými jazykmi slúži nasledujúce ohodnotenie vzorových aplikácií v oblasti strojového prekladu a spracovania jazyka, textovej analýzy a zdrojov príslušného jazyka, ktoré sú nevyhnutné na tvorbu jazykových technológií. Tieto jazyky sa zoskupili na základe nasledujúcej päťbodovej škály: 1. vynikajúca podpora jazykových technológií 2. veľmi dobrá podpora 3. dobrá podpora 4. čiastočná podpora 5. slabá alebo žiadna podpora Podpora jazykových technológií sa merala podľa nasledovných kritérií: korpusov, kvalita a pokrytie existujúcich lexikálnych 4.8 ZÁVERY Touto sériou bielych kníh sme uskutočnili prvé kroky na stanoenie stupňa podpory jazykových technológií pre 30 európskych jazykov a na vysokej úrovni sme ponúkli porovnanie situácie medzi jednotliými jazykmi. Po odhalení medzier, potrieb a nedostatkov môže Európska jazyková komunita a jej zainteresované strany realizovať rozsiahly výskum a rozojový program s cieľom vybudovať s pomocou technológií v Európe skutočne multilingálnu komunikáciu. Biela kniha dokazuje, že na Slovensku existuje kvalitné prostredie pre lingvistický výskum aj napriek tomu, že daný technologický priemysel sa tu dostatočne nerozvinul. Slovenský výskum sa realizuje iba s malým Spracovanie reči: Kvalita existujúcich technológií na počtom dostupných technológií a zdrojov. Tento počet rozpoznávanie reči, kvalita existujúcich technológií je nižší ako v prípade iných jazykov ako sú čeština alebo 33 poľština a podstatne nižší ako je to v prípade hlavných Ako uvádza táto správa, skôr ako bude možné urobiť jazykov EÚ (angličtiny, nemčiny alebo francúzštiny). nejaký posun v spracovávaní slovenčiny, musia sa Slovenské jazykové technológie a zdroje majú navyše podniknúť okamžité kroky. Je jasné, že sa musí vynaložiť zjavne horšiu kvalitu. väčšia snaha vytvoriť zdroje jazykových technológií Náš pohľad na technologickú podporu slovenského pre slovenčinu a viesť výskum, inováciu a rozvoj jazyka naozaj nemôže byť optimistický. Na Slovensku ako taký. Potreba veľkoobjemových dát a extrémna máme rodiaci sa výskum v oblasti jazykových komplikovanosť systémov jazykových technológií robí technológií pre slovenčinu, a to najmä na univerzitách, rozvoj novej infraštruktúry veľmi dôležitým. Podporilo vo vedeckých pracoviskách, ako aj v malých a stredných by to spoluprácu všetkých zainteresovaných strán. podnikoch, ktoré sa zameriavajú na základný výskum a Vo financovaní výskumu a rozvoja chýba kontinuita. riešenia špecifických problémov v oblasti jazykových Krátkodobo koordinované programy sa striedajú s technológií. Rôzne inštitúcie zasvätili svoj výskum obdobiami nízkeho až zriedkavého financovania, rozvoju jazykových technológií, ako sú tvorba veľkých pričom je tu badateľný celkový nedostatok koordinácie korpusov slovenčiny (písaných textov ale aj hovoreného programov v ďalších krajinách EÚ a v samotnej jazyka), Európskej komisii. morfologická analýza, strojový preklad, Slovenčine by spolu s ďalšími komplexné rečové interaktívne systémy, rozpoznávanie jazykmi pomohol väčší záujem o jazykové technológie reči a podobné. Ich rozvoj je však nutné ďalej rozvíjať a a vytvorenie viacjazyčného programu pre európske podporovať. krajiny a celý svet [56]. 34 Vynikajúca podpora Veľmi dobrá podpora angličtina Dobrá podpora nemčina taliančina fínčina francúzština holandčina portugalčina španielčina čeština Čiastočná podpora baskičtina bulharčina dánčina estónčina galícijčina gréčtina írčina katalánčina nórčina poľština švédčina srbčina slovenčina slovinčina maďarčina Slabá/Žiadna podpora islandčina chorvátčina lotyština litovčina maltčina rumunčina 10: Klastre jazykov pre spracovanie reči Vynikajúca podpora Veľmi dobrá podpora angličtina Dobrá podpora francúzština španielčina Čiastočná podpora nemčina taliančina katalánčina holandčina poľština rumunčina maďarčina Slabá/Žiadna podpora baskičtina bulharčina dánčina estónčina fínčina galícijčina gréčtina írčina islandčina chorvátčina lotyština litovčina maltčina nórčina portugalčina švédčina srbčina slovenčina slovinčina čeština 11: Klastre jazykov pre strojový preklad 35 Vynikajúca podpora Veľmi dobrá podpora angličtina Dobrá podpora Čiastočná podpora nemčina francúzština taliančina holandčina španielčina baskičtina bulharčina dánčina fínčina galícijčina gréčtina katalánčina nórčina poľština portugalčina rumunčina švédčina slovenčina slovinčina čeština maďarčina Slabá/Žiadna podpora estónčina írčina islandčina chorvátčina lotyština litovčina maltčina srbčina 12: Klastre jazykov pre textovú analýzu Vynikajúca podpora Veľmi dobrá podpora angličtina Dobrá podpora Čiastočná podpora nemčina francúzština holandčina švédčina čeština poľština maďarčina taliančina španielčina baskičtina bulharčina dánčina estónčina fínčina galícijčina gréčtina katalánčina chorvátčina nórčina portugalčina rumunčina srbčina slovenčina slovinčina Slabá/Žiadna podpora írčina islandčina lotyština litovčina maltčina 13: Klastre jazykov pre zdroje 36 5 O META-NET-E META-NET je sieť excelentnosti čiastočne financovaná strategický výskumný program (SRA; Strategic z fondov Európskej komisie. Sieť tvorí v súčasnosti Research Agenda) pre oblasť európskych jazykových 54 výskumných centier z 33 krajín [57]. META-NET technológií. buduje Multilingválnu európsku technologickú alianciu vytvoriť v Európe ucelenú a súdržnú komunitu META, ktorá predstavuje narastajúcu komunitu jazykových technológií cez zoskupenie rôznych profesionálov jazykových technológií a organizácií zainteresovaných strán. v Európe. kníh bola pripravovaná v 29 jazykoch. Hlavným cieľom META-VISION je Súčasná séria bielych Spoločná základy technologická vízia sa vytvárala v troch vizionárskych multilingválnej európskej informačnej spoločnosti tým, skupinách. Technologická rada META vznikla s cieľom že: prediskutovať a pripraviť strategický výskumný program META-NET podporuje technologické umožňuje komunikáciu a spoluprácu v rôznych jazykoch; garantuje všetkým Európanom rovnaký prístup k informáciám a vedomostiam v ľubovoľnom jazyku; buduje a vylepšuje funkcie zosieťovaných informačných technológií. založený na vízii vzájomnej spoluprácie celej komunity jazykových technológií. META-SHARE vytvára možnosti na výmenu a sprístupnenie zdrojov. Sieť dátových úložísk bude obsahovať publikácie, súbory dát, multimediálne súbory, výpočtové nástroje, služby a aplikácie usporiadané do štandardizovaných kategórií. Zdroje Sieť podporuje Európu tým, že ju spája ako jediný sa dajú jednoducho vyhľadať. Sú to jednak bezplatné digitálny trh a informačný priestor. a voľne prístupné materiály, ale aj zdroje s obmedzeným META-NET stimuluje a podporuje rozvoj viacjazyčných technológií a spoplatneným použitím. všetkých európskych jazykov. Tieto technológie META-RESEARCH spája príbuzné technologické generujú obsah, oblasti. Táto oblasť sa snaží využiť poznatky iných spracúvajú informácie, riadia vedomostný manažment oblastí a zužitkovať ich na výskum jazykových a i. technológií. využívajú automatický preklad, Využívajú tiež intuitívne jazykové rozhrania Tento okruh sa obzvlášť zameriava aplikovateľné na rozmanité technologické výdobytky na špičkový výskum v oblasti strojového prekladu, ako je domáca elektronika, stroje, autá alebo počítače či zbierania roboty. organizovania jazykových zdrojov na účel hodnotenia; Od 1. februára 2010 v sebe META-NET zahŕňa tri na zostavovanie inventára nástrojov a metód a nasledujúce okruhy činností: META-VISION, META- organizovanie seminárov či školení pre členov SHARE a META-RESEARCH. komunity. dát, prípravy dátových súborov a META-VISION podporuje dynamickú a vplyvnú komunitu zainteresovaných strán, ktorú zjednocuje 37 office@meta-net.eu – http://www.meta-net.eu English 38 1 EXECUTIVE SUMMARY During the last 60 years, Europe has become a distinct but also in trade relations with third countries, espe- political and economic structure, yet culturally and lin- cially emerging economies. To achieve this goal and pre- guistically it is still very diverse. is means that from serve Europe’s cultural and linguistic diversity, it is nec- Portuguese to Polish and Italian to Icelandic, every- essary to first carry out a systematic analysis of the lin- day communication between Europe’s citizens as well as guistic particularities of all European languages, and the communication in the spheres of business and politics is current state of language technology support for them. inevitably confronted with language barriers. e EU’s Language technology solutions will eventually serve as institutions spend about a billion euros a year on main- a unique bridge between Europe’s languages. taining their policy of multilingualism, i. e., translating texts and interpreting spoken communication. Yet does this have to be such a burden? Modern language technology and linguistic research can make a significant contribution to pulling down these linguistic borders. When combined with intelligent devices and applications, language technology will in the future be able to help Europeans talk easily to each other and do business with each other even if they do not speak a common language. Language technology as a key for the future. Language technologies and natural language processing of the Slovak language have been lagging behind a lot, compared with the situation in neighbouring countries. For example, there was a high quality natural language processing research carried on in the Czech Republic already in the mid-1990s, and the Czech language technologies have strong commercial backing. In Slovakia, Language technology builds bridges. the first foray into the field was in the beginning of this millennium, with the creation of the Slovak National Corpus. One classic way of overcoming the language barrier is to e first two big government funded research projects learn foreign languages. Yet without technological sup- with a focus on language technologies and resources port, mastering the 23 official languages of the member in Slovakia were National Corpus of the Sloak Lan- states of the European Union and some 60 other Euro- guage and Electronisation of Linguistic Research in the pean languages is an insurmountable obstacle for the cit- years 2002–2006 and Integrated Computational Pro- izens of Europe and its economy, political debate, and cessing of the Sloak Language for Linguistic Research scientific progress. Purposes, both carried out at Ľ. Štúr Institute of Lin- e solution is to build key enabling technologies. guistics, Slovak Academy of Sciences, and their contin- ese will offer European actors tremendous advan- uation as Construction of Sloak National Corpus and tages, not only within the common European market Electronisation of Linguistic Research in Sloakia (in the 39 years 2007–2011), sponsored by the Ministry of Educa- the state of language tools and resources for Slovak and tion of the Slovak Republic, Ministry of Culture of the other European languages. erefore, a focused effort is Slovak Republic and the Slovak Academy of Sciences. needed to bring up the Slovak language technologies to Another major project concerning the Slovak language a comparable level. processing was the project Automatic Transcription of Dictate for the Ministry of Justice of the Sloak Republic, coordinated by the Department of Speech Analysis Language technology helps unify Europe. and Synthesis of the Institute of Informatics of the Slovak Academy of Sciences, with participation of the De- META-NET’s long-term goal is to introduce high- partment of Electronics and Multimedia Communica- quality language technology for all languages in order to tions of the Technical University of Košice, carried out achieve political and economic unity through cultural in the years 2009–2011, funded by the Ministry of Jus- diversity. e technology will help tear down existing tice of the Slovak Republic. e goal of the project was barriers and build bridges between Europe’s languages. to create a complete system for transcribing spoken Slo- is requires all stakeholders - in politics, research, busi- vak language, specialised for judicial domain and is cur- ness, and society - to unite their efforts for the future. rently being deployed in the courts of law in the Slovak is white paper series complements other strategic ac- Republic. tions taken by META-NET (see the appendix for an ese three projects were so far the only major initia- overview). Up-to-date information such as the current tives concerning natural language processing of the Slo- version of the META-NET vision paper [58] or the vak language. As this white paper series shows, there is Strategic Research Agenda (SRA) can be found on the a dramatic difference between the level of research and META-NET web site: http://www.meta-net.eu. 40 2 LANGUAGES AT RISK: A CHALLENGE FOR LANGUAGE TECHNOLOGY We are witnesses to a digital revolution that is dramati- the creation of different media like newspapers, ra- cally impacting communication and society. Recent de- dio, television, books, and other formats satisfied velopments in digital information and communication different communication needs. technology are sometimes compared to Gutenberg’s invention of the printing press. What can this analogy tell us about the future of the European information society and our languages in particular? In the past twenty years, information technology has helped to automate and facilitate many of the processes: desktop publishing soware has replaced typewriting and typesetting; The digital revolution is comparable to Gutenberg’s invention of the printing press. presentation soware, such as OpenOffice/LibreOffice Impress or Microso PowerPoint has replaced overhead projector transparencies; Aer Gutenberg’s invention, real breakthroughs in e-mail send and receive documents faster than a fax communication and knowledge exchange were accom- machine; plished by efforts such as Luther’s translation of the SIP telephony and Skype offers cheap Internet Bible into vernacular language. In subsequent centuries, phone calls and hosts virtual meetings; cultural techniques have been developed to better han- audio and video encoding formats make it easy to ex- dle language processing and knowledge exchange: change multimedia content; the orthographic and grammatical standardisation of major languages enabled the rapid dissemination of new scientific and intellectual ideas; the development of official languages made it possible for citizens to communicate within certain (often political) boundaries; the teaching and translation of languages enabled ex- search engines provide keyword-based access to web pages; online services like Google Translate produce quick, approximate translations; social media platforms such as Facebook, Twitter, and Google+ facilitate communication, collaboration, and information sharing. changes across languages; Although such tools and applications are helpful, they the creation of editorial and bibliographic guidelines are not yet capable of supporting a sustainable, multi- assured the quality and availability of printed mate- lingual European society for all where information and rial; goods can flow freely. 41 2.1 LANGUAGE BORDERS HOLD BACK THE EUROPEAN INFORMATION SOCIETY We cannot predict exactly what the future information society will look like. But there is a strong likelihood that the revolution in communication technology is bringing people speaking different languages together in new ways. is is putting pressure on individuals to learn new languages and especially on developers to create new technology applications to ensure mutual understanding and access to shareable knowledge. In a global economic and information space, more languages, speakers and content interact more quickly with new types of media. e current popularity of social media (Wikipedia, Facebook, Twitter, YouTube, Pokec, Google+) is only the tip of the iceberg. ders has not gained much public attention; yet, it raises a very pressing question: Which European languages will thrive in the networked information and knowledge society, and which are doomed to disappear? 2.2 OUR LANGUAGES AT RISK While the printing press helped step up the exchange of information in Europe, it also led to the extinction of many European languages. Regional and minority languages were rarely printed and languages such as Romani and Rusyn were mostly limited to oral forms of transmission, which in turn restricted their scope of use. Will the Internet have the same impact on our languages? Europe’s approximately 80 languages are one of its richest and most important cultural assets, and a vital part of its unique social model [3]. While languages such as English and Spanish are likely to survive in the emerging digital marketplace, many Euro- The global economy and information space confronts us with different languages, speakers and content. pean languages could become irrelevant in a networked society. is would weaken Europe’s global standing, and run counter to the strategic goal of ensuring equal participation for every European citizen regardless of Today, we can transmit gigabytes of text around the language. According to a UNESCO report on multi- world in a few seconds before we recognise that it is in lingualism, languages are an essential medium for the a language we do not understand. According to a re- enjoyment of fundamental rights, such as political ex- cent report from the European Commission, 57% of In- pression, education and participation in society [4]. ternet users in Europe purchase goods and services in non-native languages (English is the most common foreign language followed by French, German and Span- The variety of languages in Europe is one of its richest and most important cultural assets. ish). 55% of users read content in a foreign language while only 35% use another language to write e-mails or post comments on the Web [2]. A few years ago, English of online content in other European (as well as Asian 2.3 LANGUAGE TECHNOLOGY IS A KEY ENABLING TECHNOLOGY and Middle Eastern) languages has exploded. Surpris- In the past, investment efforts in language preservation ingly, this ubiquitous digital divide due to language bor- focused on language education and translation. Accord- might have been the lingua franca of the Web – the vast majority of content on the Web was in English – but the situation has now drastically changed. e amount 42 ing to one estimate, the European market for transla- Without language technology, we will not be able to tion, interpretation, soware localisation and website achieve a really effective interactive, multimedia and globalisation was €8.4 billion (short scale, i. e., 8.4109 .) multilingual user experience in the immediate future. in 2008 and is expected to grow by 10% per annum [5]. Yet this figure covers just a small proportion of current and future needs in communicating between languages. e most compelling solution for ensuring the breadth and depth of language usage in Europe tomorrow is to 2.4 OPPORTUNITIES FOR LANGUAGE TECHNOLOGY use appropriate technology, just as we use technology to In the world of print, the technology breakthrough was solve our transport, energy and disability needs among the rapid duplication of an image of a text (a page) using others. a suitably powered printing press. Human beings had to Digital language technology (targeting all forms of writ- do the hard work of looking up, reading, translating, and ten text and spoken discourse) helps people collaborate, summarizing knowledge. We had to wait until Edison conduct business, share knowledge and participate in to record spoken language – and again his technology social and political debate regardless of language barri- simply made analogue copies. ers and computer skills. It oen operates invisibly inside Digital language technology can now automate the complex soware systems to help us: very processes of translation, content production, and knowledge management for all European languages. It find information with an Internet search engine; can also empower intuitive language/speech-based in- check spelling and grammar in a word processor; terfaces for household electronics, machinery, vehicles, view product recommendations in an online shop; computers and robots. Real-world commercial and in- hear the verbal instructions of a car navigation sys- dustrial applications are still in the early stages of devel- tem; translate web pages via an online service. Language technology consists of a number of core applications that enable processes within a larger application opment, yet R&D achievements are creating a genuine window of opportunity. For example, machine translation is already reasonably accurate in specific domains, and experimental applications provide multilingual information and knowledge management as well as con- framework. e purpose of the META-NET language tent production in many European languages. white papers is to focus on how ready these core tech- As with most technologies, the first language appli- nologies are for each European language. cations such as voice-based user interfaces and dialogue systems were developed for highly specialised do- Europe needs robust and affordable language technology for all European languages. mains, and oen exhibit limited performance. But there are huge market opportunities in the education and entertainment industries for integrating language technologies into games, cultural heritage sites, edu- To maintain our position in the frontline of global inno- tainment packages, libraries, simulation environments vation, Europe will need language technology adapted and training programmes. Mobile information ser- to all European languages that is robust, affordable and vices, computer-assisted language learning soware, e- tightly integrated within key soware environments. learning environments, self-assessment tools and plagia- 43 rism detection soware are just some of the application areas where language technology can play an important role. e popularity of social media applications like 2.5 CHALLENGES FACING LANGUAGE TECHNOLOGY Twitter, Pokec or Facebook suggest a further need for Although language technology has made considerable sophisticated language technologies that can monitor progress in the last few years, the current pace of tech- posts, summarise discussions, suggest opinion trends, nological progress and product innovation is too slow. detect emotional responses, identify copyright infringe- Widely-used technologies such as the spelling and gram- ments or track misuse. mar correctors in word processors are typically monolingual, and are only available for a handful of languages. Online machine translation services, although useful for quickly generating a reasonable approximation of a Language technology helps overcome the “disability” of linguistic diversity. document’s contents, are fraught with difficulties when highly accurate and complete translations are required. Due to the complexity of human language, modelling our tongues in soware and testing them in the real Language technology represents a tremendous opportunity for the European Union. It can help address the complex issue of multilingualism in Europe – the fact that different languages coexist naturally in European businesses, organisations and schools. But citizens need to communicate across these language borders criss-crossing the European Common Market, and lan- world is a long, costly business that requires sustained funding commitments. Europe must therefore maintain its pioneering role in facing the technology challenges of a multiple-language community by inventing new methods to accelerate development right across the map. ese could include both computational advances and techniques such as crowdsourcing. guage technology can help overcome this final barrier while supporting the free and open use of individual languages. Technological progress needs to be accelerated. Looking even further forward, innovative European multilingual language technology will provide a benchmark for our global partners when they begin to enable their own multilingual communities. Language technology can be seen as a form of ‘assistive’ 2.6 LANGUAGE ACQUISITION IN HUMANS AND MACHINES technology that helps overcome the ‘disability’ of lin- To illustrate how computers handle language and why it guistic diversity and make language communities more is difficult to program them to use it, let’s look briefly at accessible to each other. Finally, one active field of re- the way humans acquire first and second languages, and search is the use of language technology for rescue op- then see how language technology systems work. erations in disaster areas, where performance can be a Humans acquire language skills in two different ways. matter of life and death: Future intelligent robots with Babies acquire a language by listening to the real inter- cross-lingual language capabilities have the potential to actions between its parents, siblings and other family save lives. members. From the age of about two, children produce 44 their first words and short phrases. is is only possi- e second approach to language technology and ma- ble because humans have a genetic disposition to imitate chine translation in particular is to build rule-based and then rationalise what they hear. systems. Experts in the fields of linguistics, computa- Learning a second language at an older age requires tional linguistics and computer science first have to en- more effort, largely because the child is not immersed code grammatical analyses (translation rules) and com- in a language community of native speakers. At school, pile vocabulary lists (lexicons). is is very time con- foreign languages are usually acquired by learning gram- suming and labour intensive. Some of the leading rule- matical structure, vocabulary and spelling using drills based machine translation systems have been under con- that describe linguistic knowledge in terms of abstract stant development for more than twenty years. e rules, tables and examples. Learning a foreign language great advantage of rule-based systems is that the experts gets harder with age. have more detailed control over the language processing. is makes it possible to systematically correct mistakes Humans acquire language skills in two different ways: learning from examples and learning the underlying language rules. in the soware and give detailed feedback to the user, especially when rule-based systems are used for language learning. But due to the high cost of this work, rulebased language technology has so far only been devel- e two main types of language technology systems ‘ac- oped for major languages. quire’ language capabilities in a similar manner. Sta- As the strengths and weaknesses of statistical and rule- tistical (or ‘data-driven’) approaches obtain linguistic based systems tend to be complementary, current re- knowledge from vast collections of concrete example search focuses on hybrid approaches that combine the texts. While it is sufficient to use text in a single lan- two methodologies. However, these approaches have so guage for training, e. g., a spell checker, parallel texts in far been less successful in industrial applications than in two (or more) languages have to be available for train- the research lab. ing a machine translation system. e machine learn- As we have seen in this chapter, many applications ing algorithm then “learns” patterns of how words, short widely used in today’s information society rely heavily phrases and complete sentences are translated. on language technology. Due to its multilingual com- is statistical approach can require millions of sen- munity, this is particularly true of Europe’s economic tences and performance quality increases with the and information space. Although language technology amount of text analysed. is is one reason why search has made considerable progress in the last few years, engine providers are eager to collect as much written there is still huge potential in improving the quality of material as possible. Spelling correction in word pro- language technology systems. In the following, we will cessors, and services such as Google Search and Google describe the role of Slovak in European information so- Translate all rely on statistical approaches. e great ad- ciety and assess the current state of language technology vantage of statistics is that the machine learns fast in for the Slovak language. continuous series of training cycles, even though quality can vary arbitrarily. 45 3 SLOVAK IN THE EUROPEAN INFORMATION SOCIETY 3.1 GENERAL FACTS nic group, which was divided into dialects but formed e Slovak Republic is a country in Central Europe Slovak. e Slovak language went through fast develop- neighbouring both Slavic (Czech Republic, Poland, ment in the 10th to 12th centuries (jer vocalisation, dis- Ukraine) and non-Slavic countries (Hungary, Austria). appearance of nasal vowels), and stabilised in the 13th to Its geographic location, mostly mountainous landscape 15th centuries. In the 16th to 18th centuries, Czech was and historical development created the considerably used as the cultural language in Slovakia, together with multi-ethnic and multicultural character of the coun- several types of cultural Slovak, such as cultural West try. It also caused a variety of Slovak dialects and the Slovak, cultural Central Slovak and cultural East Slovak. subsequent codification of (modern) standard Slovak By the end of the 18th century, attempts at the forma- as an over-regional communication mean by as late as tion of literary Slovak had started. At the end of the 18th 1843. Although part of the territory of Slovakia be- century, Anton Bernolák based his codification on cul- longed to the historic Great Moravia, where Constan- tural West Slovak, but failed to get wide recognition due tine and Methodius, invited from the Byzantine Empire to changed social and economic conditions. Ľudovít in the 9th a certain cultural form can be regarded as the basis of century were spreading the Christian religion Štúr used Central Slovak as the basis and his idea took and education through Old Church Slavonic and the hold very soon, and with certain modifications (Martin Glagolitic alphabet. Later development of Slovakia and Hattala, Michal Miloslav Hodža) lasts up to these days. the Slovak language was influenced by the Latin alpha- Slovak is the official language in the Slovak Republic. bet and Roman culture. Several influences subsequently Since May 2004 it has also been one of the administra- occurred that le traces on the Slovak language as well. tive languages of the European Union. Slovak is spo- e Slovak language– in the Indo-European family of ken by 4.5 million inhabitants of Slovakia, more than 1 languages, together with Polish, Czech, Lower and Up- million emigrants in the United States, and approx. 300 per Sorbian – belongs to the West branch of Slavic lan- thousand people in the Czech Republic. Smaller lan- guages. Linguistic, historic, and archaeological sources guage groups of Slovaks are situated in Hungary, Ro- prove that Slovak developed directly from Proto-Slavic. mania, Serbia, Croatia, Bulgaria, Poland, the United e Proto-Slavic basis of Slovak was formed in the area Kingdom, France, Germany, Belgium, Austria, Nor- between the Carpathians, the Danube, and the Upper way, Denmark, Finland, Sweden, Italy, Switzerland, the Moravia. e Slavonians, predecessors of the Slovaks, Netherlands, Cyprus, Russia, Ukraine, Kyrgyzstan, Is- came to this area in the 6th century from the south-east. rael, Canada, South Africa, Argentina, Brazil, Uruguay, e reconstructed language of the Great Moravian eth- Australia, New Zealand, and other countries. e Slo- 46 vak language is the “esperanto” of all the Slavic lan- the knowledge and opinions of the scientific and pro- guages due to its most comprehensible character for fessional community led by the Ľudovít Štúr Institute other users of Slavic langugages. of Linguistics of the Slovak Academy of Sciences. e Institute is a founder and coordinator of several com- The Slovak language is the “esperanto” of all the Slavic languages. missions with nationwide coverage: spelling committee, orthoepic committee, onomastic committee, and the committee for codification. e committees prepare and recommend codification of orthoepic, spelling, Slovaks abroad pertain to different groups: they are de- grammatical and lexical rules. Spelling rules are sub- scendants of indigenous inhabitants of Slovakia, who ject to a broader discussion with the involvement of moved to other areas of former Austro-Hungary; de- the general public, but due to the interconnection of scendants of later migrants from Slovakia, living over- many factors and social impact of any changes they are seas (emigration wave from the late 19th to the mid not amended too oen. e last amendments, espe- century); political and economic migrants aer cially in the rules of rhythmic alternation and capital- 1945, 1948, and 1968 and their descendants; and fi- isation, were made in 1991. e lexicographic works nally, mostly young people settled abroad aer the (Krátky slovník slovenského jazyka, Slovník súčasného year 1990. It is estimated that some 270 000 Slovaks slovenského jazyka A – G, H – L, Synonymický slovník, went abroad in the last wave of emigration in the years Slovník cudzích slov – akademický [6, 7, 8, 9, 10]) com- 2007–2008. A special group consists of descendants piled at the Ľ. Štúr Institute of Linguistics of the Slovak of Slovaks, who remained abroad due to political and Academy of Sciences cover not only the orthography geographical changes aer the year 1918 or the year but also lexical, grammar and orthoepic rules. Mono- 1945. At the same time, there are ethnic minorities liv- graphs and scientific articles published by the Institute ing in Slovakia (Hungarians, Gypsies, Czechs, Rutheni- capture the Slovak language situations in all its areas. ans, Ukrainians, Germans, Poles, Moravians, Croatians, e territorial arrangement of Slovakia (a territory with Bulgarians, Jews), which together account for 14.2% of an area of almost 50 000 km2 is mainly situated length- population of Slovakia. wise; the length between eastern and western border- e Slovak language has several forms: standard Slo- lines is almost 430 km) and specifics of individual di- vak is mainly used in written form and in official com- alects also affect forms of Slovak language in specific re- munication and colloquial Slovak represents a standard gions and locations, which represents a problem to be mainly used in verbal communication. Each form has coped with mainly by foreigners learning Slovak and specific subgroups, which form the Slovak language moving throughout the territory of the Slovak Repub- stratification: literary language / nationwide standard lic. 20th language / nationwide substandard language / regional variant / local variant, territorial variant (dialects), social variant (slang, jargon, argot, professional languages). At 3.1.1 Slovak Dialects the time of compiling this dcument, responsibility for Slovak dialects are a means of communication of the au- control over language and language policy was borne by tochthonous population of the respective dialect areas the Ministry of Culture (Act on State Language, Cen- in everyday social and working relations with the near- tral Language Board). Its decisions should be based on est environment. Slovak dialects are inherited from one 47 40 40 40 11 20 10 22 26 23 25 42 32 34 35 14 18 17 16 31 42 43 42 43 42 24 43 41 33 13 15 41 30 12 21 41 43 1: Map of Slovak Dialects generation to the next in verbal form, although the pro- b) e central Slovak dialects are spoken in the regions cess of levelling can be observed in this area. of Liptov, Orava, Turiec, Tekov, Hont, Novohrad, Vocabularies of individual dialects in Slovakia are de- Gemer and in the Zvolen area. scribed in more detail in the Dictionary of Slovak Dialects and several dialects are described in separate studies with an extension to other linguistic levels. 10. Liptov dialects 11. Orava dialects Slovak dialects are divided into three basic groups (see 12. Turiec dialect figure 2): 13. Upper Nitra dialects 14. Zvolen dialects a) e Western Slovak dialects are spread throughout the Trenčín, Nitra, Trnava, Myjava areas and other regions. 20. Upper Trenčín dialects 21. Lower Trenčín dialect 22. Váh river dialect 15. Tekov dialects 16. Hont dialect 17. Novohrad dialects 18. Gemer dialects c) e eastern Slovak dialects can be found in the regions of Spiš, Šariš, Zemplín and Abov. 23. Central Nitra dialects 30. Spiš dialects 24. Lower Nitra dialects 31. Abov dialects 25. Trnava area dialects 32. Šariš dialects 26. Záhorie dialect 33. Zemplín dialect 48 34. Soták dialects syllable structure, which influenced the changes in de- 35. Už dialects clension and conjugation. Although the Slovak and 40. Goral dialects 41. Ukrainian dialects Czech languages developed under different conditions for a long period (Slovakia became a part of the Kingdom of Hungary in the 11th century), they have re- 42. Various dialects mained close to each other. However, some specific 43. Hungarian dialects features of the Slovak language (the forms lakeť /elbow, Česi/the Czechs, the suffix -m in the first person singu- ese groups are further divided into a variety of subdialects (each village has its own dialect); especially mountainous regions have highly varied dialects. In the past, the mountainous character of the country caused certain (language) isolation of the population in individual provinces. ese specific characteristics were also caused by the reorganisation and migration of the population, colonisation, mixing of different dialect types, influence from neighbouring Slavic and non Slavic lan- lar, etc.) are parallel in South Slavic languages. With some less significant characteristics, Slovak resembles Polish (prefix pre- unlike the Czech pro-, preservation of the consonant dz, and several expressions such as teraz/now, pivnica/cellar). By other characteristics it approaches East Slavic languages. erefore we talk about the central position of Slovak among the Slavic languages and about the good understandability of Slovak for the members of other Slavic nations. guages, changes in the employment of the population, etc. According to the nature of dialects and the occurrence of the individual characteristics, Slovak dialects in Some specific features of the Slovak languages are parallel in South Slavic languages. Hungary, Serbia, Croatia, Romania, Bulgaria and other countries, where large compact groups moved to in the past, can be included in these groups. In view of the limited number of old written monuments, Slovak dialects are the basic source of historical Slovak grammar. 3.2 PARTICULARITIES OF THE SLOVAK LANGUAGE Modified Latin with diacritical marks is used in Slovakia. e palatalisation of consonants is marked with a caron (ď, ť, ň, ľ ; also used for graphemes ž, š, č, dž) and the length of vowels and consonants by an acute accent (á, é, í, ý, ó, ú, ŕ, ĺ ). Vowels are not subject to reduction, they are pronounced in full form in each position. In Slovak, besides vowels and consonants, several diphthongs (ia, ie, iu) and one u-diong (ô) occur. e Slovak language started to develop directly from Old Church Slavonic in the 10th century. Main changes took place and were stabilised before the 15th century; some of them equally (reduction of the nasal vowels) Modified Latin with diacritical marks is used in Slovakia. and the others differentially (vocalisation of hard jers in eastern and the western parts of contemporary Slo- A phonetic speciality of the Slovak standard lan- vakia was of western Slavic type and in the central part it guage (and of Central Slovak dialects) is the so-called was of non-western Slavic type). A part of these changes rhythmic rule, which is a tendency not to have two was also the decomposition of the Old Church Slavonic long syllables adjacent (pekný/nice – krásny/beautiful, 49 prosím/please – smútim/I am sad). Slovak has dynamic In the conjugation of verbs, three tenses are distin- stress on the first syllable of the word that is not very guished: past, present, and future. In addition to the strong (it is weaker than in Russian or Polish). In three forms – indicative, imperative, and conditional, prepositional phrases with one-syllable prepositions, the most of the verbs exist in two aspects – perfective (za- stress is usually put on the prepositions: v škole/near the olať ) and imperfective (olať ). Slovak is a highly in- school. flectional language with elements of analytical constructions (especially in verb forms such as budem písať, bol Unlike Russian or Czech, Slovak has a simpler structure by som prišiel). e grammar function of words is clearly of declension and conjugation paradigms. However, the designated by inflection, therefore the word order in system of substantive and verbal forms is clearly struc- a sentence is relatively free. From the syntactic point tured, in spite of unification tendencies. e Slovak lan- of view, Slovak is characterised by a basic construction guage has six grammatical cases (nominative, genitive, scheme S(ubject) – V(erb) – O(bject), however, it is a dative, accusative, locative and instrumental). Unlike rather theoretical scheme, whose realisation varies as a Czech, the vocative is not frequently used in Slovak any- consequence of the free word order. Cases are helpful more; it is usually identical with the nominative. Slovak for the unambiguous determination of S and O (S is in recognises 4 genders: masculine animate and masculine N case, O is usually in A or G, D cases, rarely in other inanimate, feminine, and neuter for nouns and related cases), homonymy of the forms, however, can be a cause adjectives, pronouns and numerals. Masculine and fem- of an uncertainty in subject and object functions (espe- inine genders with animate concreta are determined ac- cially in foreign proper names but also in several other cording to the natural gender and in other cases it is a cases). matter of convention, which is not signalised by any article, and only sometimes by the ending (e. g., strom/tree – masc. inanimate, jabloň/apple tree – fem., jablko/apple – neuter.). For each gender there are given several patterns Highly unbound verbal morphemes cause problems for foreigners and computer processing. in student grammar books and their paradigms differ especially in – G/A sing. and N/G plur. (e. g., mascu- Special problems for foreigners and computer process- line animate chlap / chlapa / chlapi / chlapov, hrdina / ing of the Slovak language are caused by highly movable hrdinu / hrdinovia / hrdinov; žena / ženy / ženu / ženy verbal morphemes sa, si, by which the verb can be pre- / žien, dlaň / dlane / dlaň / dlane / dlaní). In some ceded or followed even in distance of several words, or patterns and cases there is some significant homonymy: even in a different part of the sentence structure (Netr- G and A sing. of animate masculine, N and A sing. of valo dlho, keď sa im ich hviezda, ktorú predtým videli v inanimate masculine, in feminine gender of G sing. and diaľke, zrazu priblížila). In Slovak, two-unit sentences N plur., etc. ere are possible transitions among the with a subject (agents) are the most frequent but one- paradigms, e. g., the feminine paradigm kosť is nowa- unit constructions without agents are also frequently days more productive than the paradigm dlaň. Words used (Prší., Prišlo mu zle., Na stavbe sa tvrdo pracuje.). formally assigned to a certain paradigm quite oen do e subject is known from the context and the form not follow the pattern, which is the reason for many ex- of the predicative verb is not expressed formally (Našiel ceptions. In NLP literature a much larger number of som ho.); its presence in the sentence in the form of a per- paradigms is mentioned [11, 12, 13]. sonal pronoun marks an emphasis (Ja som ho našiel!). 50 3.3 SLOVAK ON THE INTERNET At the end of 2010, the size of the Slovak Internet population reached approximately 2 394 000 which is more than 44% of all Slovak inhabitants. In the case of the younger generation, this percentage has been much higher as young people spend a lot of time on the Internet. By the end of 2010 the number of Slovak domains exceeded the level of 231 thousand [14]. e amount of .sk domains on the worldwide web was about 1‰ (the number of all domains according to http:// www.verisigninc.com was reaching approximately 200 million) by the end of 2010. e style of Internet communication and the texts to be found on the Internet are interesting for natural language research but also for text collecting purposes. e Internet is also a place for the the closely related languages Slovak Ø Czech, where the percentage of correctness of the translation is good. Of course, even these translations are sometimes incorrect, however, they are much more successful than transla- tions between Slovak and English, German, French, and other major languages. e use of the Internet by Slovak Internet users is reflected by more than 60 000 registered Slovak users of the Internet encyclopedia Wikipedia in the Slovak language. Slovak Wikipedia includes more than 285 000 articles. 3.4 SLOVAK AS A FOREIGN LANGUAGE usage of various applications which use language data as 3.4.1 Slovak Online a source. Slovak Online [15] is a project enabling free-of-charge Shared with many other European languages, a specific Slovak language studies by means of e-learning on the feature of early Slovak language presence on the inter- web. Provided language courses in different levels (mini net (and generally, in anything computer related) was course for tourists, courses A1 and A2 according to the the habit of using the language without diacritics. Ow- Common European Framework of Reference for Lan- ing to the “character encoding mess” in the late 80’s and guages) are divided into topical chapters and they are 90’s and the lack of soware support for different char- supplemented by audio and video recordings and ex- acter encodings, the “proper” language on the Internet ercises. e site includes an outline of Slovak gram- started to dominate only in the late 1990’s. Nowadays, mar and orthography, a multilingual dictionary and lan- with the almost universal Unicode and UTF-8 encod- guage games. It also provides some basic information ing, there are no more outstanding problems and the di- and trivia about Slovakia and the Slovak language, a acritics are used universally (however, in informal con- library with extracts from Slovak literary works and texts such as in e-mails and discussion forums, and espe- the possibility of instant messaging communication be- cially in SMS, Slovak without diacritics is common). tween registered users. A special category consists of bilingual dictionaries, which are freely accessible to Slovak users through three major Slovak portals (azet.sk, centrum.sk, zoznam.sk). Google is developing a freely accessible automatic text translator from various languages into Slovak and vice The target group is foreigners living in Slovakia, partners in mixed marriages, inhabitants of border area, Slovaks living abroad, slovakists and slavists, etc. versa. e degree of correctness is, however, low in the case of the majority of languages. ere is an inter- e target group of the site is foreigners living in Slo- esting result regarding the mutual translation between vakia, partners in mixed marriages, inhabitants of bor- 51 der area, Slovaks living abroad, slovakists and slavists, isation and realisation of a Summer School of Slovak immigrants, students and tourists. Currently, the site Language and Culture Studia Academica Sloaca, which has a German, English, Esperanto, French, Lithuanian, has been offered to foreign applicants since 1965. e Polish and Slovak version. Methodical Centre SAS reassumed its successful history e project, the first of its kind, came into existence in 1992, and in 2006 it was transformed into SAS – e on the basis of experience gained by the operation of Centre for Slovak as a Foreign Language. In its almost the lernu! [16] site – the biggest portal for Esperanto half-century of existence of SAS, almost 6 000 foreign language studies. e Slovak Online project was sup- alumni interested in Slovak language, culture and re- ported by European Committee in the frame of the alia from more than 50 countries all over the world have KA2 programme – languages – lifelong learning. e utilised its services. On the grounds of Studia Academ- project is coordinated by a civic association Eduká- ica Slovaca the basis of scientific description and didac- cia@Internet (Slovakia), with the partnership of Ľu- tics of Slovak as a foreign language was laid, and the first dovít Štúr Institute of Linguistics (Slovakia), Studio textbooks and didactics of Slovak as a foreign language GAUS (Germany), Vilniaus universitetas (Lithuania), were written. In relation to its wide tradition and ex- Wyższa Szkoła Informatyki, Zarządzania i Adminis- perience, SAS currently works as a coordination and in- tracji w Warszawie (Poland) and Slovak Centre London formation centre with slovakiawide as well as an exterior (UK). sphere of activity. 3.4.2 Studia Academica Slovaca Studia Academica Slovaca – e Centre for Slovak as The activities focus on the education of foreigners interested in Slovak language and culture. a Foreign Language (SAS) is a specialised centre at the Faculty of Arts (officially also called Faculty of Philoso- In 2006 the SAS Centre acquired accreditation from the phy), Comenius University (FF UK) in Bratislava. e Ministry of Education of the Slovak Republic for pro- pedagogical and research activities focus on the edu- viding educational activities concerning Slovak as a For- cation of foreigners interested in Slovak language and eign Language – language courses in contact and dis- culture, propagation of Slovak science, culture and art tance form for all levels of language development in- abroad, implementation and coordination of the re- cluding beginners (A1, A2), intermediate and upper- search of Slovak as a foreign language, realisation of in- intermediate (B1, B2) and advanced (C1, C2). eir ternational and domestic research projects and activi- contents are published in printed version [17] and pub- ties aimed at creating and publishing academic Slovakist lished on the web [18]. Based on a grant from the material and textbooks of Slovak as a foreign language. Ministry of Education of the Slovak Republic under Besides the SAS being an expert centre for Slovak as a the project Educational Programme Slovak as a For- foreign language, it also traditionally participates in sci- eign Language, SAS offers those who are interested in entific methodical preparation for lecturers of Slovak Slovak language a Slovak e-learning course for level A1 as a foreign language at universities abroad. e result (Basic User – Breakthrough) and level A2 (Basic User of the cooperation with the lectorates and foreign Slav- – Waystage). e objective of the project is to cre- ists builds a database of Slavonic studies abroad. An- ate both content and forms of language development other part of the Centre’s activities is the annual organ- for foreigners on individual levels corresponding to e 52 Common European Framework of Reference for Lan- SAS is usually attended by approximately 150 partici- guages, as well as to specify individual criteria of the pants from more than 25 countries all over the world. evaluation and certification of language competence. ose creating and holding the seminars are professional e main scope is the preparation of standard and spe- teachers and lecturers, experts in teaching Slovak as a cialised learning materials for students and methodical foreign language, oen experienced in teaching in Slo- materials for teachers. Every year a Methodical seminary vakia as well as abroad. on Slovak as a foreign language for teachers of grammar and secondary schools abroad and for university lectors takes place to inform about new approaching linguistics, literature, culture and didactics of Slovak as a foreign language. 3.5 SLOVAK NATIONAL CORPUS A product of the implementation of the project by e creation of the Slovak National Corpus Depart- the Studia Academica Slovaca group “Educational pro- ment of Ľ. Štúr Institute of Linguistics has been stim- gramme Slovak as a Foreign Language”, the Faculty of ulated by the worldwide trend involving the language Arts of Comenius University has been awarded the Eu- and information technology development, the need to ropean label 2007 by the European Commission in the create the source data for dictionaries. e department field of language education. was founded in 2002 with the support of the Ministry 3.4.3 Summer School of Slovak Language and Culture e Summer School of Slovak Language and Culture Studia Academica Slovaca is aimed at Slovakists and Slavists abroad, cultural workers, managers, lecturers, language teachers, translators and all those interested in studying Slovak language and culture. e aim of the course is to enable students to acquire and improve their Slovak language competence on various levels, as well as to extend their knowledge in Slovak linguistics, literature, history and culture. The aim is to enable students to acquire and improve their Slovak language. of Culture of the Slovak Republic (program for maintaining the national language), the Ministry of Education (informatisation and use of innovative methods in teaching) and the Slovak Academy of Sciences. An eight-member team of predominantly young scientists is involved in the project: Construction of the Slovak National Corpus and the electronisation of linguistic research in Slovakia [20]. In the initial stages of forming the department, its corpus database, and the specific tools for its construction and use, the Slovak National Corpus department regularly held scientific seminars presented by eminent foreign specialists. Selected contributions were compiled in publication [21]. Since 2005 the Slovak National Corpus team has organised the biennial international conference Slovko [22] on natural language processing and corpus linguistic research, with partic- Established in 1965, Summer School SAS is the oldest ipation by Slovak as well as foreign researchers (from summer university in Slovakia and has been under the Austria, Bulgaria, Croatia, the Czech Republic, France, name Studia Academica Slovaca since 1966. Since its Germany, Hungary, Poland, Russia, Slovenia, Spain, establishment, SAS has continually maintained its pro- Ukraine, etc.). e published conference proceedings file of Slovakist academic studies. e Summer School contain contributions on the preparation, research, and 53 results of diverse national and international projects in the field of construction and use of general and specific corpora and databases, in the field of language analysis and synthesis, automatic translations, computer lexicography and terminography, e-learning etc. e department members have been involved in 7 Slovak projects and 6 international projects and cooperation. In 2005 they were awarded the Slovak Academy of Sciences Prize for construction of scientific infrastructure. 3.5.2 Corpus of Spoken Language e database of the Spoken Corpus of Slovak [26] contains audio records of spontaneous and semi-prepared speech from the entire Slovak territory and their text transcripts. Specific characteristics of spoken language are selectively captured in the transcripts, such as irregular structure of an utterance, pronunciation variants, means of speech modulation, and presence of the nonlinguistic elements. e Spoken Corpus of Slovak provides material for research and description of the real 3.5.1 Corpus of Written Language form of contemporary standard spoken Slovak. e primary, general corpus prim covers Slovak texts 3.5.3 Slovak Terminology Database which arose aer the year 1955. ree major styles are represented in the corpus: journalistic, fiction, professional (including popular science) as well as various other genres and areas. e corpus database comprises texts from throughout Slovakia as well as texts by Slovaks living abroad, texts originally in Slovak and translated from other languages. For specialised research, the general corpus prim-*-all can be divided into independent subcorpora: sane – does not contain linguistic texts, texts without diacritics, texts from Slovaks living abroad etc. vyv – journalistic, fiction, and professional texts are represented by a third share each inf – journalistic texts only prf – professional texts only e Slovak Terminology Database [27] includes Slovak terms and relevant terminological information from various disciplines. e database serves for the stabilizing and unification of terminological systems, through the cooperation of linguists and experts from relevant professional fields. Its aim is to summarise and standardise the Slovak terminology. e terms are obtained from the specialised professional corpora (corpus of law texts, economy texts, etc.). 3.5.4 Parallel Corpora Currently, in the Slovak National Corpus Department there are available Slovak-Russian [28], Slovak-French [29], Slovak-English [30], Slovak-Czech [31] parallel corpora. img – fiction texts only 3.5.5 Linguistic Resources skimg – original Slovak fiction texts only e most renowned and usable product of linguistic re- e use of the texts the in Slovak National Corpus is governed by the provisions of the Copyright Act. e corpus texts and text units are accompanied by: external, bibliographical, style, and genre annotation [24] and internal, morphological or morphosyntactic annotation [25]. All the words are lemmatised. search electronisation in Slovakia is a free file of the electronic forms of up-to-date editions of the Short Dictionary of Slovak, Rules of Slovak Orthography, Slovak Synonym Dictionary, Dictionary of Foreign Words, and the older Slovník slovenského jazyka [32] as well as other dictionary works, monographs, miscellanies, and linguistic periodicals [33]. On average, 40 000 input queries are searched a day in the database. 54 4 LANGUAGE TECHNOLOGY SUPPORT FOR SLOVAK Language technologies are information technologies spelling correction specialised in human language processing. erefore authoring support these technologies are also oen subsumed under the term human language technology. Human language computer-assisted language learning occurs in spoken and written form. While speech is information retrieval the oldest and most natural mode of language com- information extraction munication, complex information and the bulk of hu- text summarisation man knowledge is recorded and transmitted in written texts. Speech and text technologies process or pro- question answering duce language in these two forms. However, language speech recognition also has aspects common to both forms such as dictio- speech synthesis naries, most of the grammar, and the meaning of sentences. us, large parts of language technology can- Language technology is an established area of research not be subsumed under either speech or text technolo- with an extensive set of introductory literature. e in- gies. Knowledge technologies include technologies that terested reader is referred to the following references: link language to knowledge. Figure 2 illustrates the lan- [34, 35, 36, 37, 38]. guage technology in context. In our communication, Before discussing the above application areas, we will we mix language with other modes of communication briefly describe the architecture of a typical LT system. and other information media. We combine speech with gestures and facial expressions. Texts can be combined with pictures and sounds. Films may contain language in spoken and written form. us, speech and text technologies overlap and interact with many other technolo- 4.1 APPLICATION ARCHITECTURES gies that facilitate the processing of multi-modal com- Typical soware applications for language processing munication and multimedia documents. In this sec- consist of several components that mirror different as- tion, we will discuss the main application areas of lan- pects of language and of the task they implement. Fig- guage technology, i. e., language checking, web search, ure 3 displays a highly simplified architecture that can be speech interaction, and machine translation. ese ap- found in a text processing system. e first three mod- plications and basic technologies include ules deal with the structure and meaning of the text input: 55 Speech Technologies Multimedia & Multimodality Technologies Language Technologies Knowledge Technologies Text Technologies 2: Language technologies 1. Pre-processing: cleans the data, analyses or removes formatting, detects the input languages, detects if complexity of Language Technology applications in a generally understandable way. the text lacks diacritics and so on. 2. Grammatical analysis: finds the verb, its objects, modifiers and other sentence elements; detects the sentence structure. 3. Semantic analysis: disambiguation (Which meaning of mier is the right one in a given context?), resolving anaphora and referring expressions like on, to auto, etc.; representing the meaning of the sentence in a machine-readable way. Aer introducing the core application areas, we will give a short overview of the situation in language technology research and education, concluding with an overview of past and ongoing research programs. Finally, we will present an expert estimation on the situation regarding core language technology tools and resources on a num- Task-specific modules then perform many different op- ber of dimensions such as availability, maturity, or qual- erations such as automatic summarisation of an input ity. e general situation of LT for the Slovak language text, database look-ups and many others. In figure 3, we is summarised in figure 8 (p. 68) at the end of this chap- will illustrate core application areas and highlight their ter. is table lists all tools and resources that are bold- core modules. Again, the architectures of the applica- faced in the text. LT support for Slovak is also compared tions are highly simplified and idealised, to illustrate the to other languages that are part of this series. Input Text Pre-processing Output Grammatical Analysis Semantic Analysis Task-specific Modules 3: A typical text processing architecture 56 4.2 CORE APPLICATION AREAS psom byť is a much more probable word sequence than 4.2.1 Language Checking sentence than chce psa byť (nevertheless, we can contrive Anyone using a word processing tool such as Microso contexts where all four sequences are grammatical). A Word has come across a spell checking component that indicates spelling mistakes and proposes corrections. 40 years aer the first spelling correction program by Ralph Gorin, language checkers nowadays do not simply compare the list of extracted words against a dictionary of correctly spelled words, but have become increasingly sophisticated. In addition to languagedependent algorithms for handling morphology (e. g., plural formation), some are now capable of recognizing syntax–related errors, such as a missing verb or a verb that does not agree with its subject in person and number, e. g., in ‘She *write a letter.’ However, most available spell checkers (including Microso Word) will find no errors in the following first verse of a poem by Jerrold H. Zar (1992) [39]: chce psom biť, and chce psa biť is a much more probable statistical language model can be automatically derived using a large amount of (correct) language data (i. e., a corpus). Up to now, these approaches have mostly been developed and evaluated on English language data. However, they do not necessarily transfer straightforwardly to Slovak with its flexible word order and richer inflection. e use of Language Checking is not limited to word processing tools, but is also applied in authoring support systems. Accompanying the rising number of technical products, the amount of technical documentation has rapidly increased over the last decades. Fearing customer complaints about wrong usage and damage claims resulting from bad or badly understood instructions, companies have begun to increasingly focus on the quality of technical documentation, at the same Eye have a spelling chequer, time targeting the international market. Advances in It came with my Pea Sea. NLP lead to the development of authoring support so- It plane lee marks four my revue ware, which assists the writer of technical documenta- Miss Steaks I can knot sea. tion to use vocabulary and sentence structures consis- For handling these types of errors, analysis of the con- tent with certain rules and terminology restrictions. text is needed in many cases, e. g., for deciding if a word needs to be written with “y” or “i”, as in: Kto chce psa biť, palicu si nájde. [He who wants to beat a dog will find a stick.] Kto chce psom byť, pána si nájde. [He who wants to be a dog will find his master.] Spelling checkers for Slovak are mostly based on a dictionary of basic word forms (lemmas). e existing spelling checkers for Slovak are mostly based on a dictionary of basic word forms (lemmas) combined with a set of morphological rules enabling the is either requires the formulation of language-specific analysis or generation of all (correct) word forms. Al- grammar rules, i. e., a high degree of expertise and man- though this simple approach seems to be satisfactory, ual labour, or the use of a so-called statistical language it has two substantial drawbacks. e first issue con- model. Such models calculate the probability of a par- cerns the superficially correct word forms appearing in a ticular word occurring in a specific environment (i. e., wrong context. e second drawback is the inability to the preceding and following words). For example, chce distinguish between real spelling errors and word forms 57 Statistical Language Models Input Text Spelling Check Grammar Check Correction Proposals 4: Language checking (top: statistical; bottom: rule-based) which are correct, but which are not contained in the data, a mainly statistically-based approach can lead to dictionary. Such words will always exist due to the nat- satisfactory results. However, for a more sophisticated ural enhancement of a lexicon by newly created words, request for information, integrating deeper linguistic by new scientific or technical terms etc. knowledge is essential. In research labs, experiments us- Besides spell checkers and authoring support, Language ing machine-readable thesauri and ontological language Checking is also important in the field of computer- resources like WordNet, have shown improvements by assisted language learning. Language checking applica- allowing to find a page on the basis of synonyms of the tions also automatically correct search engine queries, search terms, e. g., jadrová, atómová and nukleárna en- e. g., Google’s ‘Did you mean…’ suggestions. ergia (nuclear, atomic and nuclear energy) or even more 4.2.2 Web Search Searching on the web, in intranets, or in digital libraries is probably the most widely used and yet underdeveloped Language Technology today. e search engine loosely related terms. The next generation of search engines will have to include much more sophisticated Language Technology. Google, which started in 1998, is nowadays used for about 80% of all search queries world-wide. In 2006, the e next generation of search engines will have to in- verb googloať/googliť very narrowly missed being in- clude much more sophisticated Language Technology. cluded in the first volume of the new Dictionary of Con- If a search query consists of a question or another type temporary Slovak Language (Sloník súčasného sloen- of sentence rather than a list of keywords, retrieving rel- ského jazyka), a fact that is over being used to reproach evant answers to this query requires an analysis of this the dictionary authors for. Neither the search interface sentence on a syntactic and semantic level as well as the nor the presentation of the retrieved results have sig- availability of an index that allows for a fast retrieval of nificantly changed since the first version. In the cur- the relevant documents. For example, imagine a user in- rent version, Google offers a spelling correction for mis- puts the query ‘Give me a list of all companies that were spelled words and also, in 2009, incorporated basic se- taken over by other companies in the last five years’. For mantic search capabilities into their algorithmic mix a satisfactory answer, syntactic parsing needs to be ap- [40], which can improve search accuracy by analysing plied to analyse the grammatical structure of the sen- the meaning of the query terms in context. tence and determine that the user is looking for com- e success story of Google shows that with a lot of panies that have been taken over and not companies data at hand and efficient techniques for indexing these that took over others. Also, the expression last five years 58 Web Pages Pre-processing Semantic Processing Indexing Matching & Relevance Pre-processing Query Analysis User Query Search Results 5: Web search architecture needs to be processed in order to find out which years it and video files, this involves a speech recognition mod- refers to. ule to convert speech content into text or a phonetic Finally, the processed query needs to be matched against representation, to which user queries can be matched. a huge amount of unstructured data in order to find the In Slovakia, there were several different small and piece or pieces of information the user is looking for. is is commonly referred to as information retrieval and involves the search for and ranking of relevant documents. In addition to generating a list of companies, we also need to extract the information that a particular string of words in a document refers to a company name. is kind of information is made available by so-called named-entity recognisers. medium enterprises (SMEs) developing search technologies, or search technologies developed by Czech SMEs were used. e first Slovak search engine taking Slovak morphology (developed at the Faculty of Mathematics and Physics, Charles University, Prague) into account was morfeo.sk, run by the internet portal centrum.sk, which started to provide a fulltext search of the .sk domain webpages in 2003. It used lemmatisa- Even more demanding is the attempt to match a query tion and morphology annotation to look for inflected to documents written in a different language. For cross- words in order to be able to provide the user with more lingual information retrieval, we have to automatically relevant results than those including the basic forms of translate the query to all possible source languages and the words. It also included fuzzy search possibilities and transfer the retrieved information back to the target lan- search by synonyms. By 2009 the number of indexed guage. e increasing percentage of data available in pages was over 117 million. Since that time, Google has non-textual formats drives the demand for services en- already included Slovak morphology support and sur- abling multimedia information retrieval, i. e., informa- passed the number of the indexed pages and centrum.sk tion search on images, audio, and video data. For audio has switched to a customised Google Search. 59 One of the enterprises engaged in this field is Forma Ontea works on the basis of searching for patterns, s. r. o. [41], a company that developed three linguistic which can either be linguistically dependent patterns, modules: speech check, hyphenator, lemmatiser and such as use of prepositions and sentence structure, but thesaurus, on the basis of data obtained from the Ľ. Štúr also simpler patterns, such as use of capitals and abbre- Institute of Linguistics of the Slovak Academy of Sci- viations e. g. s. r. o. and a. s. for searching for businesses, ences. e company also developed separate programs SK, SKK, EUR, EURO, € for price searching, or abbre- for full-text Slovak search and still operates online ver- viations of Slovak first names for searching for people sions of some older dictionaries. in a text. A principle is applicable to various languages, Focus on development for search technologies lies in providing add-ons and advanced search engines for special-interest portals by exploiting topic-relevant semantics. Due to the still high demands in processing power, such search engines are only economically usable in relatively small text corpora. e processing time easily exceeds that of a common statistical search engine as, e. g., provided by Google by a magnitude of thousands. ese search engines also have a high demand in topicspecific domain modelling, making it infeasible to use these mechanisms on a web scale. but the patterns have to be made for a specific language, e. g., Slovak. At the present, the Ontea tool is being improved for use in the processing of e-mail communication. e system was tested within the AIIA project [50, 51] on Slovak e-mails from the Anaso company and SANET association. Ontea not only uses the patterns, but also dictionaries (gazetteers) as well as their combinations in order to extract and identify entities in a text. Since the use of dictionaries (but also some patterns) can cause problems with the identification of an entity that is in other than basic form, use of lemmatiser seems to be appropriate. Since the entities are mostly of Research in this field is mainly performed by the Insti- a nomenclatural nature, such as people, locations, prod- tute of Informatics of the Slovak Academy of Sciences, uct names, names of projects or services, they are dif- which started to deal with the processing of written nat- ficult to be lemmatised. Although the problems have ural language in 2006. At the same time, WIKT [42] not yet been successfully resolved, they could be settled workshops, containing several articles or even entire sec- by a new method with the combination of dictionaries, tions dedicated to the processing of Slovak language in character based tokenisation, lemmatisation, and verifi- each year have been initiated. Since 2006, the research cation of an entity in a dictionary. in the Institute of Informatics in cooperation with Pavol e extraction of entities using patterns was also used Jozef Šafárik University in Košice has been mainly per- in an experiment with large group of data, when Slovak formed within the NAZOU [43] project aimed at the websites were processed with an aim of extraction of ge- development of the tools for obtaining, processing, or- ographical data (Slovak addresses) and their subsequent ganising and presenting Internet information. Job offers finding [52]. represented a specific application with the tools having been tested on Slovak job offers as well. e Institute prepared an analysis of processing texts in Slovak [44] 4.2.3 Speech Technology and, at the same time, Ontea [45], a tool for extracting Speech technology is the basis for the creation of in- of information [46, 47] was developed. e tool was terfaces that allow a user to interact with machines us- later integrated with the tools for language identifica- ing spoken language rather than with graphical display, tion [48] and lemmatisation [49]. keyboard, and mouse. Today these voice user interfaces 60 (VUIs) are employed for partially or fully automating rigid and inflexible usage of a VUI and possibly causes service offerings provided by companies to their cus- a poor user acceptance, the creation, tuning and main- tomers, employees, or partners via telephone. Business tenance of acoustic and language models may increase domains that rely heavily on VUIs are banking, logistics, the costs significantly. However, VUIs that employ lan- public transportation, and telecommunications. Other guage models and initially allow a user to flexibly express usages of Speech technology are interfaces to particular their intent – evoked by a ‘How may I help you’ greeting devices such as in-car navigation systems, and the em- – show both a higher automation rate and higher user ployment of spoken language as an alternative to the in- acceptance and may therefore be considered as advanta- put/output modalities of graphical user interfaces, e. g., geous over a less flexibly directed dialogue approach. An in smartphones or tablets. exception to the above mentioned are so-called embed- At its core, Speech technology comprises the following ded systems. ey require a small set of commands and four different technologies: the usage of language models in such cases is a disadvan- 1. Automatic speech recognition (ASR) is responsible for determining which words were actually spoken given a sequence of sounds uttered by a user. tage. Embedded systems are today still successfully built with grammars. For the output part of a VUI, companies tend to use utterances pre-recorded by professional – ideally corporate – speakers a lot. Static utterances 2. Syntactic analysis and semantic interpretation deal in which the wording does not depend on the partic- with analysing the syntactic structure of a user’s ut- ular contexts of use or the personal data of the given terance and interpreting the latter according to the users will result in a rich user experience. However, the purpose of the respective system. more dynamic the content an utterance needs to con- 3. Dialogue management is required for determining, sider, the more the user experience may suffer from a on the part of the system the user interacts with, poor prosody resulting from concatenating single audio which action shall be taken given the user’s input and files. In contrast, today’s TTS systems prove superior, the functionality of the system. though optimisable, regarding the prosodic naturalness 4. Speech synthesis (Text-to-Speech, TTS) technology is employed for transforming the wording of that utterance into sounds that will be output to the user. One of the major challenges is to have an ASR system recognising the words uttered by a user as precisely as possible. is requires either a restriction of the range of possible user utterances to a limited set of keywords, or the manual creation of language models that cover a large range of natural language user utterances. A fundamental requirement for good performance is also a well trained acoustic model based on a huge amount of dynamic utterances. Regarding the market for Speech technology, the last decade underwent a strong standardisation of the interfaces between the different technology components, as well as by standards for creating particular soware artefacts for a given application. ere also has been strong market consolidation in the last ten years, particularly in the field of ASR and TTS. Here, the national markets in the G20 countries – i. e., economically strong countries with a considerable population - are dominated by few big players worldwide led mainly by Nuance, Google and Microso. of recorded data covering different accents, age groups, Speech recognition in Slovakia has a long history but genders etc. Whereas the former results in a rather has been done only at universities or scientific institu- 61 Speech Output Speech Synthesis Phonetic Lookup & Intonation Planning Natural Language Understanding & Dialogue Speech Input Signal Processing Recognition 6: Speech-based dialogue system tions. Most places focus on basic research and solutions sity of Žilina the Smart Speech Communication System of specific problems of speech recognition. e Depart- was developed at the Department of Electronics and ment of Speech Analysis and Synthesis of the Institute of Multimedia Communications. e system is available Informatics of the Slovak Academy of Sciences as a par- to public and continually serves as a demonstrator of the ticipant of the SpeechDat-E project focuses mainly on speech interactive services in Slovak over the telephone. acoustic models for telephony systems. With a grow- Today one of the most noticeable outputs represents the ing number of speech data such as for example parlia- activities in the field of language modelling for the Slo- mentary discussions the institute is using existing tools vak large vocabulary continuous speech recognition sys- for speech recognition to try to create widely usable tem. e language model created at the department is acoustic models for applications such as dictation, talk based on a corpus of 2  109 tokens. transcription, etc. with focus on speaker dependent systems. e main focus of the Department of Telecom- e second important workplace at the Technical Uni- munication of the Slovak Technical University in Bra- versity of Košice is the Department of Cybernetics and tislava is the processing of speech signals in noisy con- Artificial Intelligence where the first voice retrieval in- ditions (speech/silence detection, features extraction, formation dialogue system and SAMPA for the Slovak etc.). Among others, the department created several language were created. Today the speech recognition small speech recognition systems to compare the per- activities at the department plays a rather minor role. formance and usability of different free speech recogni- e Department of Applied Mathematics and Statis- tion systems for the Slovak language. At the Technical tics of the Faculty of Mathematics, Physics and Infor- University of Košice there are several departments fo- matics at Comenius University in Bratislava is working cusing on automatic speech recognition. e Depart- mainly on speech recognition of isolated words for chil- ment of Electronics and Multimedia Communications, dren’s voices. e results were applied in an educational which was originally focused mainly on basic research process to verify a text read by children. From the au- for the digital processing of speech signals, has gradually dio data recorded for the acoustic model training two extended its research focus toward developing complex speech databases have been created (Alica and Viktória). interactive speech systems. A few years ago in cooper- e main institution for speech recognition at the Uni- ation with research teams from the Slovak Academy of versity of Žilina is the Department of Telecommunica- Sciences, Slovak University of Technology and Univer- tions and Multimedia. Its team focuses mainly on digital signal processing for speech recognition and recog- 62 nition of isolated words using Hidden Markov Models. Nevertheless, Machine Translation (MT) still fails to Close cooperation between the Department of Elec- fulfil the high expectations it gave rise to in its early tronics and Multimedia Communications of the Tech- years. nical University of Košice and the Department of At its basic level, MT simply substitutes words in one Speech Analysis and Synthesis of the Institute of Infor- natural language with words in another. is can be use- matics of the Slovak Academy of Sciences resulted in the ful in subject domains with a very restricted, formulaic first visible success in developing the Slovak large vocab- language, e. g., weather reports. However, for a good ulary continuous speech recognition system. e result translation of less standardised texts, larger text units of the cooperation is an automatic speech dictation sys- (phrases, sentences, or even whole passages) need to be tem commercially usable in judiciary. matched to their closest counterparts in the target lan- Regarding commercial systems for Slovak speech recog- guage. e major difficulty here lies in the fact that hu- nition, it is worth mentioning the product from New- man language is ambiguous, which yields challenges on ton Technology Company. It can be considered as the multiple levels, e. g., word sense disambiguation at the first usable speaker independent dictation system for lexical level (‘Leopard’ can mean an animal or an oper- the Slovak language. Looking beyond today’s state of ating system) or the attachment of attributes on the syn- technology, there will be significant changes due to the tactic level as in: spread of smartphones as a new platform for managing customer relationships – in addition to the telephone, internet, and email channels. is tendency will also affect the employment of technology for Speech Interaction. On one hand, demand for telephony-based VUIs will decrease in long run. On the other hand, the usage Otcovi priatelia neprišli, moji áno. [Father’s friends did not come, mine did.] Otcovi priatelia neprišli, mne áno. [e friends did not come to the father, [but] to me.] of spoken language as a user-friendly input modality for One way of approaching the task is based on linguis- smartphones will gain significant importance. is ten- tic rules. For translations between closely related lan- dency is supported by the observable improvement of guages, a direct translation may be feasible in cases speaker-independent speech recognition accuracy for like the example above. speech dictation services that are already offered as cen- knowledge-driven) systems analyse the input text and tralised services to smartphone users. Given this ‘outsourcing’ of the recognition task to the infrastructure of applications, the application-specific employment of linguistic core technologies will supposedly gain impor- But oen, rule-based (or create an intermediary, symbolic representation from which the text in the target language is generated. e success of these methods is highly dependent on the availability of extensive lexicons with morphological, tance compared to the present situation. syntactic and semantic information as well as large sets 4.2.4 Machine Translation Beginning in the late 1980s, as computational power e idea of using digital computers for the translation shown in statistical models for MT. e parameters of of natural languages came up in 1946 by A. D. Booth these statistical models are derived from the analysis of and was followed by substantial funding for research in bilingual text corpora such as the Europarl parallel cor- this area in the 1950s and beginning again in the 1980s. pus, which contains the proceedings of the European of grammar rules carefully designed by a skilled linguist. increased and became less expensive, more interest was 63 Source Text Text Analysis (Formatting, Morphology, Syntax, etc.) Statistical Machine Translation Translation Rules Target Text Text Generation 7: Machine translation (left: statistical; right: rule-based) Parliament in 21 European languages. Given enough tem did not use any further linguistic analysis and sim- data, statistical MT works well enough to derive an ap- ply substituted words from one language with words in proximate meaning of a foreign language text. However, the other language (mostly limited to lemmas), its us- unlike knowledge-driven systems, statistical (or data- ability was limited to languages that do not have much driven) MT oen generates ungrammatical output. On morphology – i. e., English. A later version allowed the other hand, besides the advantage that less human to translate webpages on the fly, a functionality that is effort is required for grammar writing, data-driven MT particularly useful in the English can also cover particularities of the language that go which coincidentally was the only translation direction missing in knowledge-driven systems, for example id- that “worked”. iomatic expressions. e quality of MT systems is still considered to have As the strengths and weaknesses of knowledge- and a huge improvement potential. Challenges include the data-driven MT are complementary, researchers nowa- adaptability of the language resources to a given subject days unanimously target hybrid approaches by combin- domain or user area and the integration into existing ing the methodologies of both. is can be done in workflows with term bases and translation memories. several ways. One is to use both knowledge-driven and In addition, most of the current systems (not limited to data-driven systems and have a selection module decide the Slovak language) are English-centred. In particular, on the best output for each sentence. However, for Google Translator offers the best translation quality for longer sentences, no result will be perfect. A better solu- translations from/to English. tion is to combine the best parts of each sentence from e availability of large amounts of bilingual texts is re- multiple outputs, which can be fairly complex, as corresponding parts of multiple alternatives are not always obvious and need to be aligned. Ñ Slovak translation, ally the key in statistical MT. For Slovak, corpora of parallel texts with several other languages are currently being created. e largest data – in total several million In the 1990s a prototype of MT between closely related pairs of sentences – is available in the Slovak-Czech and languages was proposed for the pair Czech and Slovak Slovak-English parallel corpora compiled at the Ľ. Štúr at Charles University in Prague. Institute of Linguistics. e corpora contain mostly fic- TEOS Trenčín markets the first practical multilingual tion and are automatically sentence aligned. MT soware for the Slovak language, bundled with Figure 1 (p. 28), which was prepared during the EC their PC dictionary soware. However, since the sys- Euromatrix+ project, shows the pair-wise performances 64 obtained for 22 of the 23 official EU languages (Irish specific information – the answer – can be reliably ex- was not compared). e results are ranked according to tracted from a document, without unduly ignoring the a BLEU score, which indicates higher scores for better context. translations [54]. A human translator would normally is is in turn related to the information extraction (IE) achieve a score of around 80 points. task, an area that was extremely popular and influential at the time of the ‘statistical turn’ in Computational The quality of MT systems is still considered to have a huge improvement potential. Linguistics in the early 1990s. IE aims at identifying specific pieces of information in specific classes of documents; this could be, e. g., the detection of the key players in company takeovers as reported in newspaper stories. Another scenario that has been worked on is re- 4.3 OTHER APPLICATION AREAS ports on terrorist incidents, where the problem is to map Building Language Technology applications involves a get, time and location of the incident and the results range of subtasks that do not always surface at the level of the incident. Domain-specific template-filling is the of interaction with the user, but provide significant central characteristic of IE, which for this reason is an- service functionalities ‘under the hood’ of the system. other example of a ‘behind the scenes’ technology that erefore, they constitute important research issues that constitutes a well-demarcated research area but for prac- have become individual sub-disciplines of Computa- tical purposes then needs to be embedded into a suitable tional Linguistics in academia. application environment. uestion answering has become an active area of re- e JBOWL ( Java Bag-Of-Words Library) soware li- search, for which annotated corpora have been built and scientific competitions have been started. e idea is to move from a keyword-based search (to which the engine responds with a whole collection of potentially relevant documents) to the scenario of the user asking a concrete question and the system providing a single answer: Question: How old was Neil Armstrong when he stepped on the moon? Answer: 38. While this is obviously related to the aforementioned core area Web Search, question answering nowadays is primarily an umbrella term for research questions such as what types of questions should be distinguished and the text to a template specifying the perpetrator, the tar- brary was developed at the Centre for Information Technologies (FEI-CIT) in Košice for the support of NLP and Text Mining applications. JBOWL is a modular system enabling the maintenance of textual documents. It provides functions and the means of supporting the processing of natural language texts (e. g., tokenisation, morphological analysis, lemmatisation, disambiguation, syntactic analysis based on ATN networks, clustering and phrase identification, term weighting and indexing) as well as the knowledge discovery and mining from unstructured textual documents. In addition, the system provides implementations of several algorithms of controlled and uncontrolled machine learning with customisable input parameters and methods for evalu- how they should be handled, how a set of documents ating the quality of Text Mining models. that potentially contain the answer can be analysed and Two ‘borderline’ areas, which sometimes play the role compared (do they give conflicting answers?), and how of a standalone application and sometimes that of a sup- 65 portive, ‘under the hood’ component are text summari- and neuroscientists among others. As such, it has not sation and text generation. Summarisation, obviously, yet acquired a fixed place in the Slovak faculty system. refers to the task of making a long text short, and is offered for instance as a functionality within MS Word. It works largely on a statistical basis by first identifying ‘important’ words in a text (that is, for example, words that are highly frequent in this text but markedly less frequent in general language use) and then determin- A course on information retrieval, information extraction, graph algorithms for their support and processing large amounts of data can be studied at the Institute of Informatics. ing those sentences that contain many important words. ese sentences are then marked in the document, or ex- Since 2007 the researchers from the Institute of Infor- tracted from it, and are taken to constitute the summary. matics of the Slovak Academy of Sciences (Michal La- In this scenario, which is by far the most popular one, clavík and Martin Šeleng) have been teaching the In- summarisation equals sentence extraction: the text is re- formation retrieval course [55] at the Faculty of Infor- duced to a subset of its sentences. All commercial sum- mation Technologies of the Slovak Technical Univer- marisers make use of this idea. An alternative approach, sity. is course focuses on such themes as information to which some research is devoted, is to actually synthe- retrieval, information extraction, graph algorithms for sise new sentences, i. e., to build a summary of sentences their support as well as processing large amounts of data. that need not show up in that form in the source text. e students solve various practical projects in this do- is requires a certain amount of deeper understanding main, while many of them use Slovak text sources, and of the text and therefore is much less robust. All in all, a some of them directly solve the NLP problems of Slo- text generator is in most cases not a stand-alone applica- vak language processing. As an example, let us men- tion but embedded into a larger soware environment tion several projects aimed at the creation of a statisti- such as a clinical information system where patient data cal, dictionary-oriented or algorithmic stemmer based is collected, stored and processed, and report generation on the “snowball” or “Egothor” projects, and at the de- is just one of many functions. termination of the efficiency and statistics for the simple stemmers which function on the principle of omitting the vowels, diacritic marks or, eventually, word endings The software library was developed at the Centre for Information Technologies in Košice to maintain textual documents. etc. At the same time, there are also statistical translation projects or the automatic dictionary creation between the Slovak or other languages (English, Czech). Finally, let us mention the projects utilising dictionaries or frequency language dictionaries for applications 4.4 LANGUAGE TECHNOLOGY IN EDUCATION such as T9, named entities extraction using computer learning methods and libraries such as OpenNLP, the creation of POS tagging algorithms as well as the extraction of events from e-mails or from Slovak webpages and Language Technology is a highly interdisciplinary field the like. involving the expertise of linguists, computer scien- ere is no regular Computational Linguistics study tists, mathematicians, philosophers, psycholinguists, programme otherwise. 66 4.5 NATIONAL PROJECTS AND INITIATIVES In Slovakia, the language technologies and their devel- 2003–2006 in the frame of the State research and development programme Current Issues in Society Development. e project supplemented the Slovak language resources with necessary tools and additional data (mor- opment are still considered mostly a scientific area and phological a stylistic annotation, electronic linguistic re- are included predominantly in applied research, either sources, terminology database etc.). e results of the linguistic (particularly lexicography) or computer sci- project are further used in subsequent projects and also ence. e connection with the business sector has been in commercial environment. rather weak and sporadic. However, recently the lan- Another major project concerning the Slovak language guage technologies have been making strong and resolute entrance to many soware applications. e first two big government funded research projects with a focus on language technologies and resources in Slovakia were National Corpus of the Sloak Language and Electronisation of Linguistic Research in the years 2002–2006 and Integrated Computational Processing of the Sloak Language for Linguistic Research Purposes, both carried out at Ľ. Štúr Institute of Linguistics, Slovak Academy of Sciences. National Corpus of the Sloak Language and Electronisation of Linguistic Research in years 2002–2006, approved by a government resolution n. 137/2002, was aimed at building a representative corpus of Slovak language, as a necessary foundation and data source for any linguistic and natural language processing research. e corpus data form the base in compiling the comprehensive Dictionary of Contemporary Slovak. In this project, the Slovak National Corpus Department processing was the project Automatic Transcription of Dictate for the Ministry of Justice of the Sloak Republic, coordinated by the Department of Speech Analysis and Synthesis of the Institute of Informatics of the Slovak Academy of Sciences, with participation of the Department of Electronics and Multimedia Communications of the Technical University of Košice, carried out in the years 2009–2011. e goal of the project was to create a complete system for transcribing spoken Slovak language, specialised for judicial domain. e project has been funded by the Ministry of Justice of the Slovak Republic, and is currently being deployed commercially in the courts of law throughout the Slovak Republic. ese three projects were so far the only major initiatives concerning natural language processing of the Slovak language. ey paved the way for further research and commercial projects, but the need for additional research and its funding is clearly necessary. was created and subsequently became the leading institution in NLP research in Slovakia. e project continued in its 2nd period as Construction of Sloak National Corpus and Electronisation of Linguistic Research in Slovakia (in the years 2007–2011) as agreed by the Min- 4.6 AVAILABILITY OF TOOLS AND RESOURCES istry of Education of the Slovak Republic, Ministry of Figure 8 (p. 68) summarises the current state of language Culture of the Slovak Republic and the Slovak Academy technology support for the Slovak language. e rating of Sciences. for existing tools and resources was generated by lead- e project Integrated Computational Processing of ing experts in the field who provided estimates based on the Sloak Language for Linguistic Research Pur- a scale from 0 (very low) to 6 (very high) according to poses, n. 2003SP200280307 was carried out in years seven criteria. 67 Coverage Maturity Sustainability Adaptability 2 2 3 3 2 Speech Synthesis 3 3 3 3 3 3 3 Grammatical analysis 2 2 3 2 2 3 3 Semantic analysis 1 2 1 1 1 3 3 Text generation 1 1 1 1 0 1 1 Machine translation 2 2 2 2 2 1 2 uality 1 Availability 3 uantity Speech Recognition Language Technology: Tools, Technologies and Applications Language Resources: Resources, Data and Knowledge Bases Text corpora 2 4 4 5 4 4 4 Speech corpora 3 4 2 2 3 3 3 Parallel corpora 2 3 2 2 2 2 3 Lexical resources 3 2 3 4 3 4 3 Grammars 2 3 3 2 1 2 1 8: State of language technology support for Slovak 1. uantity: Does a tool/resource exist for the language at hand? e more tools/resources exist, the higher the rating. 0: no tools/resources whatsoever 6: many tools/resources, large variety 2. Availability: Are tools/resources accessible, i. e.,are pletely closed, we put the average (i. e., 3)) 3. uality: How well are the respective performance criteria of tools and quality indicators of resources met by the best available tools, applications or resources? Are these tools/resources current and also actively maintained? they Open Source, freely usable on any platform or 0: toy resource/tool only available for a high price or under very restricted 6: high-quality tool, human-quality annotations conditions? in a resource 0: practically all tools/resources are only available for a high price 6: a large amount of tools/resources is freely, openly available under sensible Open Source or Creative Commons licenses that allow re-use and re-purposing (if there are, e. g., two resources, one of them completely open and the other com- 4. Coverage: To what degree do the best tools meet the respective coverage criteria (styles, genres, text sorts, linguistic phenomena, types of input/output, number of languages supported by an MT system etc.)? To what degree are resources representative of the targeted language or sublanguages? 0: special-purpose resource or tool, specific case, 68 very small coverage, only to be used for very spe- 6: very high level of adaptability; adaptation also cific, non-general use cases very easy and efficiently possible 6: very broad coverage resource, very robust tool, widely applicable, many languages supported 5. Maturity: Can the tool/resource be considered mature, stable, ready for the market? Can the best available tools/resources be used out-of-the-box or do they have to be adapted? Is the performance of such a technology adequate and ready for production use or is it only a prototype that cannot be used for production systems? An indicator may be whether resources/tools are accepted by the community and successfully used in LT systems. e key results for the Slovak language are as follows: While some specific corpora of high quality exist, a very large syntactically annotated corpus is not available. For Slovak, the Slovak National Corpus is the reference language corpus, but only the query interface is generally available, due to licensing restrictions. On the other hand, the Corpus of Spoken Slovak is not encumbered by copyright law and is therefore publicly available, but its size is minuscule compared to the corpus of written language. 0: preliminary prototype, toy system, proof-ofconcept, example resource exercise Many of the resources lack standardisation, i. e., even if they exist, sustainability is not given; concerted 6: immediately integratable/applicable compo- programs and initiatives are needed to standardise nent data and interchange formats. 6. Sustainability: How well can the tool/resource be maintained/integrated into current IT systems? Semantics is more difficult to process than syntax; text semantics is more difficult to process than word Does the tool/resource fulfill a certain level of and sentence semantics. sustainability concerning documentation/manuals, ere is an ontological resource for Slovak (even explanation of use cases, front-ends, GUIs etc.? mapped to English ontological resources) but its Does it use/employ standard/best-practice pro- coverage is limited. gramming environments (such as Java EE)? Do in- Standards do exist for semantics in the sense of world dustry/research standards/quasi-standards exist and knowledge (RDF, OWL, etc.); they are, however, if so, is the tool/resource compliant (data formats not easily applicable to NLP tasks. etc.)? Written text processing is more mature than speech 0: completely proprietary, ad hoc data formats and APIs 6: full standard-compliance, fully documented 7. Adaptability: How well can the best tools or resources be adapted/extended to new tasks/domains/genres/text types/use cases etc.? processing (especially speech recognition) Many of the resources taken as standard in other languages are missing for Slovak; NLP language research in Slovakia is severely underfunded. Some of the research and development activities for the Slovak language is carried out in the Czech Republic by Czech universities and Czech SMEs. 0: practically impossible to adapt a tool/resource Speech Recognition of the Slovak language is stud- to another task, impossible even with large ied at several universities and workplaces but the amounts of resources or person months at hand amount of free tools and data is limited. 69 In contrast with speech recognition, speech synthe- Machine Translation: uality of existing MT tech- sis is less covered by universities and other work- nologies, number of language pairs covered, cover- places. age of linguistic phenomena and domains, quality In the field of speech synthesis, there are open source and size of existing parallel corpora, amount and va- packages available together with several other simple riety of available MT applications synthesizers but the speech synthesis with more nat- Text Analysis: uality and coverage of existing ural voices is not available. text analysis technologies (morphology, syntax, se- Slovak dialogue systems are not extended due to the mantics), coverage of linguistic phenomena and do- poor accessibility of high quality speech recognition mains, amount and variety of available applications, modules of the Slovak language. quality and size of existing (annotated) text corpora, quality and coverage of existing lexical resources 4.7 CROSS-LANGUAGE COMPARISON e current state of LT support varies considerably from (e. g., WordNet) and grammars Resources: uality and size of existing text corpora, speech corpora and parallel corpora, quality and coverage of existing lexical resources and grammars one language community to another. In order to compare the situation between languages, this section will present an evaluation based on two sample applica- 4.8 CONCLUSIONS tion areas (machine translation and speech processing) In this series of white papers, we have made an impor- and one underlying technology (text analysis), as well tant effort by assessing the language technology support as basis resources needed for building LT applications. for 30 European languages, and by providing a high- e languages were categorised using the following five- leel comparison across these languages. By identifying point scale: the gaps, needs and deficits, the European language tech- 1. excellent support nology community and its related stakeholders are now in a position to design a large scale research and develop- 2. good support ment programme aimed at building a truly multilingual, 3. moderate support technology-enabled communication across Europe. 4. fragmentary support 5. weak or no support LT support was measured according to the following criteria: is white paper demonstrates that high-quality linguistic research in Slovakia exists; however, the technology industry here is not sufficiently developed. Slovak research exists only in a small number of available technologies and resources. is number is lower than for languages such as Czech and Polish, and substantially Speech Processing: uality of existing speech recog- lower than for the main EU languages (English, German nition technologies, quality of existing speech syn- or French). Slovak language technologies and resources thesis technologies, coverage of domains, number are of noticeably poorer quality. and size of existing speech corpora, amount and va- We cannot really be optimistic about technology sup- riety of available speech-based applications port for the Slovak language. ere is a nascent re- 70 search scene in Slovakia concerning Slovak Language for Slovak, and drive research, innovation and develop- LT, mostly in universities, scientific institutions, much ment in general. e need for large amounts of data and like at the small and medium enterprises that focus on the extreme complexity of language technology systems basic research and solutions of specific LT problems. makes it vital to develop a new infrastructure to spur Various institutions have devoted their efforts to re- greater sharing and cooperation. search and development of the LT products such as pro- ere is also a lack of continuity in research and devel- duction of huge corpora of Slovak (of both written and opment funding. Short-term coordinated programmes spoken language), the morphology analysis, machine tend to alternate with periods of low or sparse fund- translation, complex speech interactive system, speech ing, and there is an overall lack of coordination among recognition system, etc. But those must be further de- programmes in other EU countries and at the European veloped and supported. Commission. According to the assessment detailed in this report, im- A large coordinated effort focused on language tech- mediate action must be taken before any breakthroughs nologies would help save the Slovak language, together for the Slovak language can be achieved. It is clear that with other languages, and establish a genuine multilin- there must be a greater effort to create LT resources gual agenda for Europe and the world as a whole [56]. 71 Excellent support Good support English Moderate support German Italian Finnish French Dutch Portuguese Spanish Czech Fragmentary support Basque Bulgarian Danish Estonian Galician Greek Irish Catalan Norwegian Polish Swedish Serbian Slovak Slovene Hungarian Weak/no support Icelandic Croatian Latvian Lithuanian Maltese Romanian 9: Speech processing: state of language technology support for 30 European languages Excellent support Good support English Moderate support French Spanish Fragmentary support German Italian Catalan Dutch Polish Romanian Hungarian Weak/no support Basque Bulgarian Danish Estonian Finnish Galician Greek Irish Icelandic Croatian Latvian Lithuanian Maltese Norwegian Portuguese Swedish Serbian Slovak Slovene Czech 10: Machine translation: state of language technology support for 30 European languages 72 Excellent support Good support English Moderate support German French Italian Dutch Spanish Fragmentary support Basque Bulgarian Danish Finnish Galician Greek Catalan Norwegian Polish Portuguese Romanian Swedish Slovak Slovene Czech Hungarian Weak/no support Estonian Irish Icelandic Croatian Latvian Lithuanian Maltese Serbian 11: Text analysis: state of language technology support for 30 European languages Excellent support Good support English Moderate support German French Dutch Swedish Czech Polish Hungarian Italian Spanish Fragmentary support Basque Bulgarian Danish Estonian Finnish Galician Greek Catalan Croatian Norwegian Portuguese Romanian Serbian Slovak Slovene Weak/no support Irish Icelandic Latvian Lithuanian Maltese 12: Speech and text resources: State of support for 30 European languages 73 5 ABOUT META-NET META-NET is a Network of Excellence partially e main focus of this activity is to build a coherent funded by the European Commission. e network and cohesive LT community in Europe by bringing to- currently consists of 54 research centres in 33 European gether representatives from highly fragmented and di- countries [57]. META-NET forges META, the Multi- verse groups of stakeholders. e present White Paper lingual Europe Technology Alliance, a growing commu- was prepared together with volumes for 29 other lan- nity of language technology professionals and organisa- guages. e shared technology vision was developed in tions in Europe. META-NET fosters the technological three sectorial Vision Groups. e META Technology foundations for a truly multilingual European informa- Council was established in order to discuss and to pre- tion society that: pare the SRA based on the vision in close interaction makes communication and cooperation possible across languages; grants all Europeans equal access to information and knowledge regardless of their language; builds upon and advances functionalities of networked information technology. with the entire LT community. META-SHARE creates an open, distributed facility for exchanging and sharing resources. e peer-topeer network of repositories will contain language data, tools and web services that are documented with highquality metadata and organised in standardised categories. e resources can be readily accessed and uni- e network supports a Europe that unites as a sin- formly searched. e available resources include free, gle digital market and information space. It stimulates open source materials as well as restricted, commercially and promotes multilingual technologies for all Euro- available, fee-based items. pean languages. ese technologies support automatic META-RESEARCH builds bridges to related tech- translation, content production, information process- nology fields. is activity seeks to leverage advances ing and knowledge management for a wide variety of in other fields and to capitalise on innovative research subject domains and applications. ey also enable in- that can benefit language technology. In particular, the tuitive language-based interfaces to technology rang- action line focuses on conducting leading-edge research ing from household electronics, machinery and vehi- in machine translation, collecting data, preparing data cles to computers and robots. Launched on 1 February sets and organising language resources for evaluation 2010, META-NET has already conducted various activ- purposes; compiling inventories of tools and methods; ities in its three lines of action META-VISION, META- and organising workshops and training events for mem- SHARE and META-RESEARCH. bers of the community. META-VISION fosters a dynamic and influential stakeholder community that unites around a shared vision and a common strategic research agenda (SRA). office@meta-net.eu – http://www.meta-net.eu 74 A ZOZNAM LITERATÚRY REFERENCES [1] Aljoscha Burchardt, Markus Egg, Kathrin Eichler, Brigitte Krenn, Jörn Kreutel, Annette Leßmöllmann, Georg Rehm, Manfred Stede, Hans Uszkoreit, and Martin Volk. Die Deutsche Sprache im Digitalen Zeitalter – e German Language in the Digital Age (Nemecký jazyk v digitálnom veku). META-NET White Paper Series. Georg Rehm and Hans Uszkoreit (Series Editors). Springer, 2012. [2] Directorate-General Information Society & Media of the European Commission (Generálne riaditeľstvo Európskej komisie pre informačnú spoločnosť a médiá). User Language Preferences Online (Preferencie jazyka používateľa), 2011. http://ec.europa.eu/public_opinion/flash/fl_313_en.pdf. [3] European Commission (Európska komisia). Multilingvalizmus: an Asset for Europe and a Shared Commitment (Multilingvalizmus: Výhoda pre Európu, ale aj spoločný záväzok), 2008. http://ec.europa.eu/languages/pdf/comm2008_en.pdf. [4] Directorate-General of the UNESCO (Generálne riaditeľstvo organizácie UNESCO). Intersectoral Midterm Strategy on Languages and Multilingualism (Medzisektorová strednodobá stratégia pre jazyky a multilingvalizmus), 2007. http://unesdoc.unesco.org/images/0015/001503/150335e.pdf. [5] Directorate-General for Translation of the European Commission (Generálne riaditeľstvo pre preklad). Size of the Language Industry in the EU (Veľkosť jazykového priemyslu v EÚ), 2009. http://ec.europa.eu/dgs/translation/publications/studies. [6] Matej Považaj, Ján Kačala, and Mária Pisárčiková. Krátky sloník sloenského jazyka (Short Dictionary of Sloak). Veda, Bratislava, 2003. [7] Klára Buzássyová and Alexandra Jarošová. Sloník súčasného sloenského jazyka A – G (Dictionary of Contemporary Sloak A–G). Veda, Bratislava, 2006. [8] Klára Buzássyová and Alexandra Jarošová. Sloník súčasného sloenského jazyka H – L (Dictionary of Contemporary Sloak H–L). Veda, Bratislava, 2011. [9] Mária Pisárčiková and Matej Považaj. Synonymický sloník sloenčiny (Sloak Synonym Dictionary). Veda, Bratislava, 2004. [10] Ľubica Balážová, Ján Bosák, Jozef Genzor, Ivor Ripka, and Jana Skladaná. Sloník cudzích slo – akademický (Dictionary of Foreign Words – Academic). Slovenské pedagogické nakladateľstvo, Bratislava, 2005. 75 [11] Emil Páleš. Sapfo – paraázovač sloenčiny (Sapfo – a Paraphraser of Sloak). Veda, Bratislava, 1994. [12] Miloslava Sokolová, Gustáv Moško, František Šimon, and Vladimír Benko. Morfematický sloník sloenčiny (Sloak Dictionary of Morphemes). Náuka, Prešov, 1999. [13] Miloslava Sokolová. Nový deklinačný systém sloenčiny (New Declension System in Sloak). Filozofická fakulta Prešovskej univerzity v Prešove, Prešov, 2007. [14] SK-NIC – správa Slovenských internetových domén najvyššej úrovne (SK-NIC – Slovak top level domain registry). Prevádzková správa systému SK-NIC za druhý polrok 2010 (1. 7. 2010 – 31. 12. 2010) (Operation Report of SK-NIC in the Second Half of 2010 (2010-07-01 – 2010-12-31)). https://www.sk-nic.sk/documents/pdf/2010-12-31_SK-NIC_PS.pdf. [15] E@I. Slovak Online, 2011. http://www.slovake.eu. [16] E@I. lernu!, 2011. http://www.lernu.net. [17] Jana Pekarovičová, Ľudmila Žigová, and Michaela Mošaťová. Vzdeláací program Sloenčina ako cudzí jazyk. Jazykový kurz v kontaktnej a dištančnej forme (Educational Programme Sloak as a Foreign Language. Language Course in Contact and Distance Learning). Stimul, Bratislava, 2007. [18] Jana Pekarovičová, Ľudmila Žigová, and Michaela Mošaťová. Vzdelávací program Slovenčina ako cudzí jazyk Jazykový kurz v kontaktnej a dištančnej forme (Educational Programme Slovak as a Foreign Language. Language Course in Contact and Distance Learning), 2007. http://www.fphil.uniba.sk/fileadmin/user_upload/ editors/sas/slavic/Vzdelavaci_program.pdf. [19] Studia Academica Slovaca. Slovenčina ako cudzí jazyk (Slovak as a Foreign Language), 2007. http://www.e-slovak.sk. [20] Mária Šimková. Insight into Sloak and Czech Corpus Linguistics (Sondy do sloenskej a českej korpusovej lingistiky). Veda, Bratislava, 2006. [21] Mária Šimková. Slovak National Corpus – history and current situation (Slovenský národný korpus – história a súčasný stav). In Insight into Sloak and Czech Corpus Linguistics (Sondy do sloenskej a českej korpusovej lingistiky), pages 151–159, Bratislava, 2006. Veda. [22] Slovenský národný korpus (Slovak National Corpus). SLOVKO. http://korpus.juls.savba.sk/~slovko. [23] Slovenský národný korpus (Slovak National Corpus). Projekty – Projects. http://korpus.sk/projects.html. [24] Slovenský národný korpus (Slovak National Corpus). Bibliografická a štýlovo-žánrová anotácia (Bibliographical, style and genre annotation). http://korpus.sk/bibstyle.html. [25] Slovenský národný korpus (Slovak National Corpus). Morfologická anotácia textov Slovenského národného korpusu (Morfological annotation of texts in the Slovak National Corpus). http://korpus.sk/morpho.html. 76 [26] Slovenský národný korpus (Slovak National Corpus). Slovenský hovorený korpus (Corpus of Spoken Slovak), 2012. http://www.korpus.sk/shk.html. [27] Slovenský národný korpus (Slovak National Corpus). Slovenská terminologická databáza (Slovak Terminology Database). http://data.juls.savba.sk/std/. [28] Slovenský národný korpus (Slovak National Corpus). Rusko-slovenský paralelný korpus (Russian-Slovak Parallel Corpus). http://korpus.sk/parus/. [29] Slovenský národný korpus (Slovak National Corpus). Francúzsko-slovenský paralelný korpus (French-Slovak Parallel Corpus). http://korpus.sk/frask/. [30] Slovenský národný korpus (Slovak National Corpus). Slovensko-anglický paralelný korpus (Slovak-English Parallel Corpus). http://korpus.sk/sken.html. [31] Slovenský národný korpus (Slovak National Corpus). Slovensko-český paralelný korpus (Slovak-Czech Parallel Corpus). http://korpus.sk/skcs.html. [32] Slovenský národný korpus (Slovak National Corpus). Slovenské slovníky (Slovak dictionaries). http://slovniky.korpus.sk. [33] Slovenský národný korpus (Slovak National Corpus). Lingvistické zdroje a slovníky (Linguistic resources and dictionaries). http://korpus.sk/dicts.html. [34] Kai-Uwe Carstensen, Christian Ebert, Cornelia Ebert, Susanne Jekat, Hagen Langer, and Ralf Klabunde, editors. Computerlinguistik und Sprachtechnologie: Eine Einführung (Úod do počítačovej lingistiky a jazykových technológií). Spektrum Akademischer Verlag, 2009. [35] Daniel Jurafsky and James H. Martin. Speech and Language Processing (Počítačové spracovanie reči a jazyka). Prentice Hall, 2nd edition, 2009. [36] Christopher D. Manning and Hinrich Schütze. Foundations of Statistical Natural Language Processing (Základy štatistického spracovania prirodzených jazykov). MIT Press, 1999. [37] Language Technology World (Svet jazykových technológií). http://www.lt-world.org. [38] Ronald Cole, Joseph Mariani, Hans Uszkoreit, Giovanni Battista Varile, Annie Zaenen, and Antonio Zampolli, editors. Survey of the State of the Art in Human Language Technology (Prehľad o súčasnom stave jazykových technológií). Cambridge University Press, 1998. [39] Jerrold H. Zar. Ecology and Evolution (Ekológia a evolúcia), 2011. http://www.bios.niu.edu/zar/zar.shtml. [40] Juan Carlos Perez. Google Rolls out Semantic Search Capabilities (Google uvádza semántické vy- hľadávanie), 2009. http://www.pcworld.com/businesscenter/article/161869/google_rolls_out_semantic_ search_capabilities.html. 77 [41] Forma, s. r. o., 2012. http://www.forma.sk/. [42] Fakulta informatiky a informačných technológií STU v Bratislave (Faculty of Informatics and Information Technologies STU in Bratislava). WIKT. http://conference.ui.sav.sk/wikt2010/. [43] Fakulta informatiky a informačných technológií STU v Bratislave (Faculty of Informatics and Information Technologies STU in Bratislava). NAZOU. http://nazou.fiit.stuba.sk. [44] Michal Laclavík, Marek Ciglan, Stanislav Krajči, Ladislav Hluchý, and Karol Furdík. Dostupné zdroje a výzvy pre počítačové spracovanie informačných zdrojov v slovenskom jazyku (Available Sources and Challenges for the Information Sources Processing in Slovak). In Michal Laclavík, Ivana Budinská, and Ladislav Hluchý, editors, 1st Workshop on Intelligent and Knowledge oriented Technologies – WIKT 2006 Proceedings, pages 92–97, Bratislava, 2007. [45] Štefan Dlugolinský, Michal Laclavík, and Martin Šeleng. Ontea: Pattern based Semantic Annotation Platform (Sémantická anotačná platforma založená na vzoroch). http://ontea.sourceforge.net/. [46] Michal Laclavík, Marek Ciglan, Martin Šeleng, Stanislav Krajči, Peter Vojtek, and Ladislav Hluchý. Semiautomatic Semantic Annotation of Slovak Texts (Poloautomatická sémantická anotácia slovenských textov). In Jana Levická and Radovan Garabík, editors, Computer treatment of Slaic and East European languages (Počítačové spracovanie sloanských a východoeurópskych jazykov), pages 126–138, Bratislava, 2007. Slovak National Corpus, Ľ. Štúr Institute of Linguistics Slovak Academy of Sciences. [47] Michal Laclavík, Martin Šeleng, Marek Ciglan, and Ladislav Hluchý. Ontea: Platform for pattern based automated semantic annotation (Ontea: Platforma pre sémantickú anotáciu založenú na vzoroch). Computing and informatics, 28(4):555–579, 2009. [48] Peter Vojtek and Vladimír Grlický. Identification of Natural Language using n-grams and Markov processes (Identifikácia prirodzeného jazyka s použitím techniky n-gramov a Markovových procesov). In Pavol Návrat et al., editor, Tools for Acquisition, Organisation and Presenting of Information and Knowledge, pages 154–161, Bratislava, 2006. Vydavateľstvo Slovenskej technickej univerzity. [49] Stanislav Krajči and Róbert Novotný. Hľadanie základného tvaru slovenského slova na základe spoločného konca slov (Searching for the Base Form of Slovak Word according to Common Word Endings). In Michal Laclavík, Ivana Budinská, and Ladislav Hluchý, editors, 1st Workshop on Intelligent and Knowledge oriented Technologies – WIKT 2006 Proceedings, Bratislava, 2007. [50] Michal Laclavík. AIIA. http://aiia.ui.sav.sk/. [51] Michal Laclavík, Martin Šeleng, Emil Gatial, Štefan Dlugolinský, Zoltán Balogh, Ladislav Hluchý, Eugen Jeckel, and Pavol Horváth. AIIA: adaptívna platforma na podporu interoperability v súkromnom a verejnom sektore (AIIA – Adaptive Platform for Interoperability Support in Private and Public Sector). In Pavel Smrž, editor, Znalosti 2010: Sborník příspěvků 9. ročníku konference (Znalosti 2010: Proceedings of the 9th annual conference), pages 227–230, Praha, 2010. Vysoká škola technická v Praze. 78 [52] Štefan Dlugolinský, Michal Laclavík, and Ladislav Hluchý. Towards a search system for the Web exploiting spatial data of a web document (Vyhľadávací systém využívajúci priestorové dáta webového dokumentu). In Roland Wagner, editor, DEXA 2010: Database and Expert Systems Applications, pages 27–31, Los Alamitos, 2010. IEEE Computer Society. [53] Philipp Koehn, Alexandra Birch, and Ralf Steinberger. 462 Machine Translation Systems for Europe (462 systémov strojového prekladu pre Európu). In Proceedings of MT Summit XII, 2009. [54] Kishore Papineni, Salim Roukos, Todd Ward, and Wei-Jing Zhu. BLEU: A Method for Automatic Evaluation of Machine Translation (BLEU: Metóda automatického hodnotenia strojového prekladu). In Proceedings of the 40th Annual Meeting of ACL, Philadelphia, PA, 2002. [55] Michal Laclavík. Vyhľadávanie informácií (Information retrieval). http://vi.ikt.ui.sav.sk/. [56] Viviane Reding and Ján Figeľ. Human Language Technologies for Europe – Preface ( Jazykové technológie pre Európu – Predslov). http://www.tcstar.org/pubblicazioni/D17_HLT_ENG.pdf). [57] Georg Rehm and Hans Uszkoreit. Multilingual Europe: A challenge for language technologies (Multilingválna Európa: Výzva pre jazykové technológie). MultiLingual, 22(3):51–52, April/May 2011. [58] Aljoscha Burchardt, Georg Rehm, and Felix Sasaki. e Future European Multilingual Information Society – Vision Paper for a Strategic Research Agenda (Budúca európska multilingválna informačná spoločnosť – vízia pre strategickú výskumnú agendu), 2011. http://www.meta-net.eu/vision/reports/meta-net-vision-paper.pdf. 79 B ČLENOVIA META-NET META-NET-U MEMBERS Belgicko Belgium Computational Linguistics and Psycholinguistics Research Centre, University of Antwerp: Walter Daelemans Centre for Proc. Speech and Images, University of Leuven: Dirk van Compernolle Bulharsko Bulgaria Inst. for Bulgarian Language, Bulgarian Academy of Sciences: Svetla Koeva Cyprus Cyprus Language Centre, School of Humanities: Jack Burston Česká republika Czech Republic Inst. of Formal and Applied Linguistics, Charles University in Prague: Jan Hajič Dánsko Denmark Centre for Language Technology, University of Copenhagen: Bolette Sandford Pedersen, Bente Maegaard Estónsko Estonia Inst. of Computer Science, University of Tartu: Tiit Roosmaa, Kadri Vider Fínsko Finland Computational Cognitive Systems Research Group, Aalto University: Timo Honkela Dept. of Modern Languages, University of Helsinki: Kimmo Koskenniemi, Krister Lindén Francúzsko France Centre National de la Recherche Scientifique, Laboratoire d’Informatique pour la Mécanique et les Sciences de l’Ingénieur and Inst. for Multilingual and Multimedia Information: Joseph Mariani Evaluations and Language Resources Distribution Agency: Khalid Choukri Grécko Greece R.C. “Athena”, Inst. for Language and Speech Proc.: Stelios Piperidis Holandsko Netherlands Utrecht Inst. of Linguistics, Utrecht University: Jan Odijk Computational Linguistics, University of Groningen: Gertjan van Noord Chorvátsko Croatia Inst. of Linguistics, Faculty of Humanities and Social Science, University of Zagreb: Marko Tadić Island Iceland School of Humanities, University of Iceland: Eiríkur Rögnvaldsson Írsko Ireland School of Computing, Dublin City University: Josef van Genabith Litva Lithuania Inst. of the Lithuanian Language: Jolanta Zabarskaitė Lotyšsko Latvia Tilde: Andrejs Vasiļjevs Inst. of Mathematics and Computer Science, University of Latvia: Inguna Skadiņa Luxembursko Luxembourg Arax Ltd.: Vartkes Goetcherian 81 Maďarsko Hungary Research Inst. for Linguistics, Hungarian Academy of Sciences: Tamás Váradi Dept. of Telecommunications and Media Informatics, Budapest University of Technology and Economics: Géza Németh, Gábor Olaszy Malta Malta Dept. Intelligent Computer Systems, University of Malta: Mike Rosner Nemecko Germany Language Technology Lab, DFKI: Hans Uszkoreit, Georg Rehm Human Language Technology and Pattern Recognition, RWTH Aachen University: Hermann Ney Dept. of Computational Linguistics, Saarland University: Manfred Pinkal Nórsko Norway Dept. of Linguistic, University of Bergen: Koenraad De Smedt Dept. of Informatics, Language Technology Group, University of Oslo: Stephan Oepen Poľsko Poland Inst. of Computer Science, Polish Academy of Sciences: Adam Przepiórkowski, Maciej Ogrodniczuk University of Łódź: Barbara Lewandowska-Tomaszczyk, Piotr Pęzik Dept. of Computer Linguistics and Artificial Intelligence, Adam Mickiewicz University: Zygmunt Vetulani Portugalsko Portugal University of Lisbon: António Branco, Amália Mendes Spoken Language Systems Laboratory, Inst. for Systems Engineering and Computers: Isabel Trancoso Rakúsko Austria Zentrum für Translationswissenscha, Universität Wien: Gerhard Budin Rumunsko Romania Research Inst. for Artificial Intelligence, Romanian Academy of Sciences: Dan Tufiș Faculty of Computer Science, University Alexandru Ioan Cuza of Iași: Dan Cristea Slovensko Slovakia Ľudovít Štúr Inst. of Linguistics, Slovak Academy of Sciences: Radovan Garabík Slovinsko Slovenia Jožef Stefan Inst.: Marko Grobelnik Spojené kráľovstvo UK School of Computer Science, University of Manchester: Sophia Ananiadou Inst. for Language, Cognition and Computation, Center for Speech Technology Research, University of Edinburgh: Steve Renals Research Inst. of Informatics and Language Proc., University of Wolverhampton: Ruslan Mitkov Srbsko Serbia University of Belgrade, Faculty of Mathematics: Duško Vitas, Cvetana Krstev, Ivan Obradović Pupin Institute: Sanja Vraneš Španielsko Spain Barcelona Media: Toni Badia, Maite Melero Institut Universitari de Lingüística Aplicada, Universitat Pompeu Fabra: Núria Bel 82 Aholab Signal Proc. Laboratory, University of the Basque Country: Inma Hernaez Rioja Center for Language and Speech Technologies and Applications, Universitat Politècnica de Catalunya: Asunción Moreno Dept. of Signal Proc. and Communications, University of Vigo: Carmen García Mateo Švajčiarsko Switzerland Idiap Research Inst.: Hervé Bourlard Švédsko Sweden Dept. of Swedish, University of Gothenburg: Lars Borin Taliansko Italy Consiglio Nazionale delle Ricerche, Istituto di Linguistica Computazionale “Antonio Zampolli”: Nicoletta Calzolari Human Language Technology Research Unit, Fondazione Bruno Kessler: Bernardo Magnini 83 Takmer 100 odborníkov na jazykové technológie – predstaviteľov krajín a jazykov META-NET-u – prediskutovalo a sformulovalo kľúčové východiská a odkazy série bielych kníh na stretnutí META-NET-u 21. a 22. októbra v Berlíne v Nemecku. — About 100 language technology experts – representatives of the countries and languages represented in META-NET – discussed and finalised the key results and messages of the White Paper Series at a META-NET meeting in Berlin, Germany, on October 21/22, 2011. 84 C SÉRIA BIELYCH THE META-NET KNÍH META-NET-U WHITE PAPER SERIES angličtina English English baskičtina Basque euskara bulharčina Bulgarian български čeština Czech čeština dánčina Danish dansk estónčina Estonian eesti fínčina Finnish suomi francúzština French français galícijčina Galician galego gréčtina Greek εηνικά holandčina Dutch Nederlands chorvátčina Croatian hrvatski islandčina Icelandic íslenska írčina Irish Gaeilge katalánčina Catalan català litovčina Lithuanian lietuvių kalba lotyština Latvian latviešu valoda maďarčina Hungarian magyar maltčina Maltese Malti nemčina German Deutsch nórčina (bokmål) Norwegian Bokmål bokmål nórčina (nynorsk) Norwegian Nynorsk nynorsk poľština Polish polski portugalčina Portuguese português rumunčina Romanian română slovenčina Slovak slovenčina slovinčina Slovene slovenščina srbčina Serbian српски španielčina Spanish español švédčina Swedish svenska taliančina Italian italiano 85 Research Co ies unit mm Lan gu a es stri u d Soc iet y rs Use e g In In everyday communication, Europe’s citizens, business V bežnej komunikácii sú občania Európy, obchodní partners and politicians are inevitably confronted with partneri language barriers. Language technology has the po- jazykovými bariérami. tential to overcome these barriers and to provide inno- by mohli časom prekonať tieto bariéry a poskytnúť vative interfaces to technologies and knowledge. This inovatívne technologické a znalostné prístupy. white paper presents the state of language technology Táto biela kniha odráža súčasný stav jazykových support for the Slovak language. It is part of a se- technológií pre slovenčinu. Je súčasťou série, ktorá ries that analyzes the available language resources and analyzuje dostupné jazykové zdroje a technológie technologies for 30 European languages. The analysis pre 30 jazykov Európy. Analýza sa realizuje pod was carried out by META-NET, a Network of Excellence záštitou META-NET-u, siete excelentnosti, ktorá funded by the European Commission. META-NET con- je financovaná Európskou komisiou. sists of 54 research centres in 33 countries, who cooper- pozostáva z 54 výskumných centier v 33 krajinách, ate with stakeholders from economy, government agen- ktoré spolupracujú so zainteresovanými stranami cies, research organisations, NGOs, language commu- z oblasti ekonómie, vládnych agentúr, výskumných nities and European universities. META-NET’s vision is organizácií, nevládnych organizácií, jazykových high-quality language technology for all European lan- komunít a európskych univerzít. Víziou META-NET-u guages. je tvorba vysokokvalitných jazykových technológií či politici neustále konfrontovaní s Jazykové technológie META-NET pre všetky európske jazyky. “This book is proof of deeper European integration increasing with the need for qualitative progress in LT for Slovak.” — Jozef Ivanecký (European Media Laboratory) „Aktuálne globalizačné procesy, mnohojazyčná Európa a existencia jazykových technológií vytvárajú podmienky pre vývoj nástrojov uľahčujúcich komunikáciu v rôznych oblastiach. Interdisciplinárny projekt META-NET predstavuje cestu, ktorou sa bude uberať ďalší rozvoj jazykových technológií v podmienkach jazykovej plurality zohľadňujúc potreby nositeľov väčších aj menších jazykov.“ — Viera Rosová (podpredsedníčka Slovenskej akadémie vied pre ekonomiku) www.meta-net.eu www.meta-net.eu