Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                
Web上のテキストデータをコーパスとして見る、
というテーマでちょっと長めの記事を連載という形で書いていきたいと
思います。よろしくです。
今回は序論。次回は EReK を取り上げます。

なお、この記事は「三省堂辞書サイトのブログ」へ転載という形で
提供しています。こちらの方でもお楽しみ下さい。

- ウェブコーパス徹底活用 第一回「序論:コーパスとしてのウェブ」
- Sanseido Word-Wise Web [三省堂辞書サイト]
  http://dictionary.sanseido-publ.co.jp/wp/

§

■第一回「序論:コーパスとしてのウェブ」

インターネットの発展のおかげで、
調べもの、情報収集が格段に楽になりました。
一昔前は、知ってそうな人を探して聞いてまわったり、
図書館などへ行って調べたり、手間がかかっていたのですが、
今ではウェブ検索サイトに行って検索窓にキーワードを入れるだけです。

それは、
ものすごくたくさんのデータ、ウェブページ上のテキストが
Google などの検索エンジンのサーバに集められていて、
すぐに取り出せる状態になっているからなのです。

このようなウェブ検索が使える今この時代は、
語学、特にインターネットの共通言語と言っても良い英語の
勉強・研究に最適な環境であると言えます。

ウェブ検索は、必要な英語資料を探す、という目的(
リーディング教材としてのニュースサイトや
リスニング教材としてのポッドキャスト・動画サイトなど)にも有用ですが、
やはり一番重要なのは、
ウェブを巨大な英語用例データベースとして無料で手軽に
利用できるようになったという点です。

単語の意味を調べるために辞書を引く、という行為は、
コンピュータがなくても紙の辞書でもできることでした。
しかし、
ありとあらゆる言語表現についての用例を探すということは、
コンピュータがなければほぼ不可能なことだったのです。
それが今やウェブ検索エンジンで楽々です。

また、ウェブの世界は今この瞬間にも成長を続けています。
つまり、新しいテキストが、語が、表現が、次々と用例データベースに
追加されている状態なのです。
常に最新の状態なのです。最新の言語表現がつまっているのです。

こんなことは人類史上なかったことです。
これは画期的なことなのです!

というわけで、ちょっと熱くなってしまいましたが、
これから何回かに渡って、
「コーパスとしてのウェブ」をテーマに、
ウェブ検索機能をベースとしたツールを紹介していきます。

その際にポイントとなる技術が Web API です。
これは、ウェブ検索を、
人間ではなくコンピュータプログラムにとって
使いやすくするための技術で、
Google や Yahoo! などのウェブ検索各社が(基本的に無料で)提供しています。
詳細は省きますが、この Web API を用いるとウェブ検索結果を自由自在に、
かつ、簡単に加工できます。
最近、週末プログラマー、趣味プログラマー、本職プログラマーたちが、
Web API を利用した「言語学習や言語調査に便利なサイト」を
ウェブで公開しています。
次回から順次紹介していきますのでご期待下さい。

なお、コーパスとは、
言語研究などの目的のために大量のテキストを集めたものです。
「検索エンジンのサーバに蓄積されたデータ」は、
ウェブ時代の大規模コーパスと言えます。
この記事に言及しているこのブログ内の記事