Location via proxy:   
[Report a bug]   [Manage cookies]                
  • Obnovení cerifikátu K-centra CLARIN

    2. března 2025

    S ra­dostí ozna­mu­jeme, že pro­jektu Český ná­rodní kor­pus byla opět pro­dlou­žena plat­nost cer­ti­fi­kátu K-cen­tra CLA­RIN v ob­lasti kor­pu­sové lin­gvis­tiky se za­mě­ře­ním na em­pi­rický vý­zkum češ­tiny.

  • Slovenská Mapka

    5. února 2025

    Ko­le­gové ze Slo­ven­ského ná­rod­ního kor­pusu JÚĽŠ SAV v Bra­ti­slavě zve­řej­nili vlastní verzi naší apli­kace Mapka upra­ve­nou pro práci se slo­ven­skými ná­ře­čími, včetně ná­řeč­ního čle­nění, cha­rak­te­ris­tik a uká­zek ja­zy­ko­vého ma­te­ri­álu. Gra­tu­lu­jeme!

  • SYN verze 13

    27. prosince 2024

    Také le­tos kon­cem roku zve­řej­ňu­jeme další ak­tu­a­li­zaci kor­pusu sou­časné psané češ­tiny SYN, je­hož verze 13 nyní po za­hr­nutí pu­b­li­cis­tiky z roku 2023 ob­sa­huje více než 5,3 mld. slov (nebo také 400 mil. vět).

  • Baltische Briefe

    11. listopadu 2024

    Zve­řej­nili jsme Bal­tische Briefe, di­a­chronní kor­pus no­vin po­balt­ských Němců v di­aspoře. Kor­pus je bo­hatě ano­to­ván, za­hr­nuje mor­fo­lo­gii, syn­tax (obojí podle UD) a po­jme­no­vané en­tity. Kor­pus se­sta­vila v rámci TNA Fellowship Anna Ba­ryshni­kova.

  • InterCorp verze 16ud

    17. září 2024

    Zve­řej­nili jsme kor­pus In­ter­Corp verze 16ud, který ob­sa­huje stejné texty jako verze 16, ale v ano­taci podle UD. Tato ano­tace je me­zi­ja­zy­kově srov­na­telná a za­hr­nuje také syn­tax. Kor­pus dále nově ob­sa­huje me­t­riky syn­tak­tické kom­ple­xity a le­xi­kální bo­ha­tosti.

  • Korpus současné poezie verze 2

    13. září 2024

    Ve spo­lu­práci s ÚČL AV ČR jsme ak­tu­a­li­zo­vali kor­pus sou­časné české po­ezie (KSP). Ve srov­nání s před­chozí verzí při­byla řada tiš­tě­ných sbí­rek, básně ze webo­vých ser­verů byly lépe pro­fil­tro­vány a také struk­tu­race kor­pusu je nyní jed­no­dušší a lo­gič­tější.

  • ČNK přes ChatGPT

    10. září 2024

    Po­kud po­tře­bu­jete zjis­tit, jak ně­který ja­zy­kový jev vy­padá v kor­pu­so­vých da­tech, ne­mu­síte už hle­dat vhod­nou apli­kaci a učit se psát CQL do­taz. Mů­žete se prostě v Chat­GPT ze­ptat mo­delu "Cor­pus Lin­gu­ist", který do­taz do ČNK po­loží za vás.

  • ÚČNK třicetiletý

    9. září 2024

    Dnes je to ne­u­vě­ři­tel­ných 30 let, co byl na Fi­lo­zo­fické fa­kultě UK za­lo­žen Ústav Čes­kého ná­rod­ního kor­pusu. K vý­ročí jsme při­pra­vili ně­ko­lik no­vých kor­pusů a další pře­kva­pení, takže se máte věru nač tě­šit!

  • Ortofon verze 3

    3. září 2024

    Zve­řej­ňu­jeme verzi 3 kor­pusu OR­TO­FON, která je za­vr­še­ním celé řady. Kromě při­dání dal­šího ma­te­ri­álu a pro­ve­dení řady oprav v tran­skripci má tato verze zcela no­vou lem­ma­ti­zaci a mor­fo­lo­gické znač­ko­vání ve stan­dardu kor­pusu SYN2020.

  • C-centrum CLARIN

    22. srpna 2024

    Všechny ve­řejně pří­stupné kor­pusy ČNK jsou nyní za­hr­nuty také do vy­hle­dá­vače ja­zy­ko­vých zdrojů CLA­RIN Vir­tual Lan­gu­age Ob­serva­tory. Kor­pusy jsou tedy lépe do­hle­da­telné, ČNK se na­víc díky tomu stalo C-cen­t­rem CLA­RIN.

  • Dynamické překladové ekvivalenty

    25. července 2024

    V no­věj­ších ver­zích In­ter­Corpu se po klik­nutí na li­bo­volné slovo v pa­ra­lelní kon­kor­danci ukáže jeho ekvi­va­lent ve dru­hém ja­zyce. Ten je vy­hle­dán dy­na­micky pro da­nou větu, a je tedy zpra­vi­dla přes­nější než glo­bální ekvi­va­lenty pře­vzaté z Trequ.

  • KonText: verze 0.18

    8. února 2024

    Byla zve­řej­něna další verze roz­hraní Kon­Text s no­vými funk­cemi; zejména jde o klí­čová slova a o zob­ra­zo­vání pře­kla­do­vých ekvi­va­lentů v pa­ra­lel­ních kor­pusech po klik­nutí na vy­brané slovo přímo v kon­ko­ranci.

Co je to korpus?

Jazykový korpus je elektronický soubor autentických textů (psaných nebo mluvených), v němž je možné jednoduše vyhledávat jazykové jevy (zejm. slova a slovní spojení) a zobrazovat je v jejich přirozeném kontextu.

Korpusy ČNK zahrnují vedle psaného současného jazyka (v rozsahu přes 4 mld. slov) i soubory spontánního mluveného jazyka (přes 7 mil. slov), diachronní korpus starších textů a paralelní korpus InterCorp obsahující překlady z nebo do více než 30 jazyků.

Aplikace

  1. KonText

    Aplikace KonText je základním nástrojem pro práci s korpusy. Umožňuje vyhledávání v korpusech pomocí jednoduchých i komplexních dotazů, zobrazení formou konkordančních řádků, vypočtení frekvenční distribuce, asociačních měr kolokací a další práci s jazykovými daty. Přehledně jsou všechny funkce KonTextu popsány v manuálu.

  2. SyD

    Nástroj SyD je určen pro všestranný průzkum variant jak v současném jazyce, tak v průběhu jeho vývoje. Využívá korpusů ČNK, s jejichž pomocí zjišťuje, jak často se která varianta užívá v současnosti a užívala v průběhu vývoje češtiny. Pro jeho vyzkoušení stačí zadat dvě varianty jednoho jevu, které si vzájemně konkurují, např. téměř × skoro.

  3. Morfio

    Nástroj Morfio slouží pro vyhledávání slovotvorných vztahů mezi jednotkami v korpusech, např. lovit - úlovek. Umožňuje najít všechny dvojice slov tvořené stejným způsobem a vyhodnotit morfologickou produktivitu jejich tvoření. Aplikace využívá rozsáhlých korpusů psaného jazyka, které pokrývají širokou paletu slovotvorných možností současné češtiny.

  4. KWords

    Aplikace KWords poskytuje základní východisko pro empiricky podloženou interpretaci textů tím, že analyzuje slova v zadaném textu a porovnává jejich frekvenci s referenčním korpusem. Výsledkem takové analýzy je identifikace klíčových slov, tj. jednotek vyskytujících se signifikantně častěji v analyzovaném textu než v korpusu, který představuje neutrální jazykový úzus.

  5. Treq

    Aplikace umožňuje snadné vyhledávání překladových ekvivalentů v oboustranných česko-cizojazyčných slovnícícch vytvořených automaticky na základě dat paralelního korpusu InterCorp.

Podpora a zdroje informací

  1. Wiki

    Internetová příručka ČNK ve formě wiki představuje komplexní bázi znalostí pro práci s korpusy. Kromě informací o nástrojích a datech ČNK obsahuje i slovníček pojmů z korpusové lingvstiky a kurz v 7 lekcích.

  2. Podpora

    Pro registrované uživatele je k dispozici naše centrum podpory. Vedle hlášení chyb a požadavků na nové funkce obsahuje zejména internetovou Poradnu, v níž na dotazy uživatelů odpovídají členové týmu ČNK.

  3. Biblio

    Biblio je repozitář vědeckých publikací a kvalifikačních prací, které jsou založeny na zdrojích ČNK. Repozitář je přístupný všem návštěvníkům tohoto portálu a slouží jako neustále doplňovaná bibliografie korpusové lingvistiky. Chcete vědět více?

  4. Rada ČNK

    Rada ČNK je stálým poradním orgánem výzkumné infrastruktury Český národní korpus. Rada průběžně sleduje vědeckou kvalitu projektu, vyjadřuje se k jeho dalšímu směřování a na svých každoročních zasedáních hodnotí výsledky projektu.

  5. Jazyková data

    Není pro vaše výzkumné cíle přístup ke korpusům přes vyhledávací rozhraní dostačující? ČNK poskytuje také datové balíčky odvozené od zveřejněných korpusů způsobem, který respektuje omezení vyplývající z dohod uzavřených s poskytovateli textů, z autorského zákona a dalších platných předpisů.

  6. Pro školy

    Zřídili jsme nový repositář korpusových cvičení pro využití ve výuce jazyků na ZŠ a SŠ. Na této pravidelně aktualizované stránce můžete najít předem připravené pracovní listy s úlohami, které stačí jen vytisknout, i tipy pro přímou práci s korpusy a korpusovými nástroji ve výuce.

  7. K-centrum CLARIN

    K-centrum projektu ČNK poskytuje informace, konzultace a technickou podporu v oblasti korpusové lingvistky se zaměřením na empirický výzkum češtiny. Je součástí K-center evropské infrastruktury CLARIN zaměřené na jazykové zdroje a nástroje pro práci s nimi pro humanitní a společenské vědy.