corpus
「corpus」とは・「corpus」の意味
「corpus」は、一定の条件や目的に基づいて収集された、言語データの集まりを指す言葉である。言語学や自然言語処理の研究において、言語のパターンや特徴を分析するために用いられる。コーパスは、書籍や雑誌、ウェブサイト、会話記録など、さまざまな媒体から収集されることがある。「corpus」の発音・読み方
「corpus」の発音は、IPA表記では /ˈkɔːrpəs/ であり、カタカナ表記では「コーパス」となる。日本人が発音する際のカタカナ英語の読み方は「コーパス」である。「corpus」の定義を英語で解説
A corpus is a collection of linguistic data gathered based on certain criteria or purposes, often used in the fields of linguistics and natural language processing to analyze patterns and characteristics of a language. Corpora can be collected from various sources, such as books, magazines, websites, and conversation records.「corpus」の類語
「corpus」の類語には、以下のような言葉がある。 1. collection: 一般的な集まりや収集物を指す言葉で、言語データに限定されない。 2. database: データの集まりを管理・検索するためのシステムを含む言葉であり、言語データ以外のデータも含むことがある。 3. archive: 古文書や歴史的資料の集まりを指す言葉で、言語データだけでなく、物理的な資料も含むことがある。「corpus」に関連する用語・表現
「corpus」に関連する用語や表現には、以下のようなものがある。 1. concordance: コーパス内の特定の単語や表現がどのように使われているかを調べるためのツールで、文脈を含めた一覧を提供する。 2. frequency list: コーパス内での単語や表現の出現頻度を一覧にしたもので、言語の特徴や傾向を把握するために用いられる。 3. annotation: コーパス内のデータに対して、品詞や構文情報などの付加情報を付与する作業。アノテーションされたコーパスは、自然言語処理の研究やアプリケーション開発に役立つ。「corpus」の例文
1. The researchers compiled a large corpus of spoken language to study regional dialects.(研究者たちは、地域の方言を研究するために、大量の話し言葉のコーパスをまとめた。) 2. The corpus contains texts from various genres, such as novels, newspapers, and academic articles.(コーパスには、小説や新聞、学術論文など、さまざまなジャンルのテキストが含まれている。) 3. The linguist analyzed the corpus to identify common patterns in the use of idiomatic expressions.(言語学者は、慣用表現の使用における共通のパターンを特定するために、コーパスを分析した。) 4. The annotated corpus provides valuable information for developing natural language processing applications.(アノテーションされたコーパスは、自然言語処理アプリケーションの開発に貴重な情報を提供する。) 5. The corpus includes both written and spoken language data, allowing for a comprehensive analysis of the language.(コーパスには、書き言葉と話し言葉の両方のデータが含まれており、言語の包括的な分析が可能である。) 6. The researchers used a balanced corpus to ensure that their findings were representative of the language as a whole.(研究者たちは、言語全体を代表する結果を得るために、バランスの取れたコーパスを使用した。) 7. The size of the corpus is an important factor in determining the reliability of the analysis results.(コーパスのサイズは、分析結果の信頼性を決定する上で重要な要素である。) 8. The corpus was divided into several subcorpora based on the source of the data.(コーパスは、データの出典に基づいていくつかのサブコーパスに分割された。) 9. The researchers compared the frequency lists of different corpora to identify the unique features of each language variety.(研究者たちは、異なるコーパスの頻度リストを比較して、各言語のバリエーションの独自の特徴を特定した。) 10. The concordance tool allowed the linguists to examine the use of specific words in context within the corpus.(コンコーダンスツールにより、言語学者たちは、コーパス内での特定の単語の文脈での使用を調べることができた。)体
別名:蝶形骨体
【英】:Corpus,Body of sphenoid
蝶形骨体は蝶形骨の中央部にあり立方体をなしている。上面中央部には鞍状を呈したトルコ鞍があり、その中央に横位楕円形の下垂体窩がある。トルコ鞍の後方には鞍背という上方に突出した骨板があり、その両側外側端の突起を後床突起という。鞍背の後部は台形をなして後頭骨の底部とともに斜台を形成する。下垂体窩の前には体の前部との境界線である鞍結節とよべる横走する稜があり、その両側端にある中床突起は発育が弱く明瞭なものは少ない。鞍結節の前には細い横走する[視神経]交叉溝があり、その両外側は視神経管につづく。交叉溝の前部は蝶形骨隆起とよばれているが、これは隆起ではなく滑らかな平面である。体の前部は小翼と後部は大翼と結合している。下錐体窩の外側と大翼の根部との間には、内側頚動脈溝という前後に走る溝があり、外側に蝶形骨小舌という突起状の骨板がある。体の下面は鼻腔、咽頭腔の上壁をなし、中央に蝶形骨吻が前下方に突出し鋤骨翼にはさまれる。体の前面中央部には蝶形骨稜という上下に走る稜線があり、篩骨の垂直板と相接する。蝶形骨稜の両側でがいおうに蝶形骨甲介が認められる。これはバルタン小骨ともよばれ、発生学的には篩骨の一部であったものが8~12歳に蝶形骨体と癒合したものでとくに若年頭蓋で著明である。体の内面は空洞状をなし蝶形骨洞とよばれ、その正中部には蝶形骨洞中隔があり、洞を左右に分けている。その前面には蝶形骨洞口という開口部が両側にあり蝶篩陥凹に通じている。
コーパス
言語学 |
---|
基礎分野 |
言語の変化と変異 |
理論 |
応用分野 |
関連項目 |
コーパス(英: corpus)は、言語学において、自然言語処理の研究に用いるため、自然言語の文章を構造化し大規模に集積したもの。構造化し、言語的な情報(品詞、統語構造など)を付与している。言語学以外では「全集」を意味することもあり、言語学でも日本語を扱う場合には、「言語全集」「名詞全集」「動詞全集」などと呼ぶとよい[1]。コンピュータ利用が進み、電子化データとして提供されている[2]。
概要
「身体」を意味する ラテン語: corpus に由来する。複数形は ラテン語: corpora(コーポラ)。英語式複数形とした 英語: corpuses の使用も散見される。
大規模なコーパスの作成には、相当の費用と時間がかかる。使用する文章に関わる著作権など、法的問題が発生するためである。データ作成の手間はあるが、コンピュータ利用により、それ以前に比べ、かなりの労力軽減と多様な構造化が実現した。日本では国立国語研究所が一億語の収録を目指す「KOTONOHA計画」をすすめている。
構造化した言語データを「一般利用する」という観点からは、三省堂がウィズダム英和・和英辞典の用例を「用例コーパス」として、一時期無料公開していた。
日本でコーパスを一般に広く知らしめたのは、英語学者の投野由紀夫である。2003年、NHK教育テレビジョン『100語でスタート!英会話』で、英語コーパスを教材に活用した放送授業を展開し、それまで専門家しか知らなかったコーパスを一般的な存在へ変えた。2009年には新シリーズとしてずばりコーパスをタイトルに入れた『コーパス100!で英会話』が放送されている。
生コーパス
人手により作成されたコーパスと区別する意味で、単に文書を集めたものを生コーパス(英: raw corpus)とよぶ[3]。
Brown コーパスのような様々なジャンルのテキストをバランスよく収集したものを均衡コーパス(英: balanced corpus)とよぶ[3]。
翻訳関係にある二文書対を収集したコーパスを対訳コーパス(英: bilingual corpus)またはパラレルコーパス(英: parallel corpus)、特定のトピックに関する対訳コーパスを 比較可能コーパス(英: comparable corpus)とよぶ[4]。
タグ付きコーパス
言語的な注釈を付与したコーパスを注釈付与コーパス(英: annotated corpus)またはタグ付きコーパス(英: tagged corpus)と呼ぶ[5]。
脚注
参考文献
- 池原悟、宮崎正弘、白井諭、横尾昭男、中岩浩巳、小倉健太郎、大山芳史、林良彦 編『日本語語彙大系』 全5巻、NTTコミュニケーション科学研究所 監修、岩波書店、1997年9月。ISBN 4-00-009884-5。
- 『日本語語彙大系』(CD-ROM版)岩波書店、1999年9月。ISBN 978-4001301014。
- 黒橋禎夫「4 コーパスに基づく自然言語処理」『自然言語処理』(改訂版)放送大学教育振興会〈放送大学教材〉、2019年3月20日。ISBN 978-4-595-31958-7。
関連項目
- コーパス言語学
- 言語資源
- 計算言語学
- 辞典
- ツリーバンク
- 言語資料学
- 構文解析
- 形式文法
- 句構造規則
- 語彙項目
- en:Quranic Arabic Corpus
- en:Calgary corpus
- en:Canterbury corpus
外部リンク
- KOTONOHA計画(国立国語研究所)
- Dualウィズダム 用例コーパス(三省堂)
- American National Corpus(アメリカ英語のコーパス)
- NINJAL-LWP for TWC(「筑波ウェブコーパス」を検索するためのツール)
- English-corpora.org(Mark Davies教授による 英語、スペイン語、ポルトガル語等に対応するコーパスのリンク集)
- Corpusのページへのリンク