[B! wikipedia] kiryuuのブックマーク

kiryuu id:kiryuu

wikipediaに関するkiryuuのブックマーク (3)

Wikipediaデータの利用方法について - FreeStyleWiki
ダウンロード http://download.wikimedia.org/の、Database XML and SQL dumpsのリンクから, XML形式, およびSQL形式での取得が可能。また, ダウンロードページにて「Dump in progress」となっているものは処理中のものなので「Dump complete」となっている箇所を探す。英語版Wikipediaのデータは enwiki, 日本語版Wikipediaのデータは jawikiのリンクが設定されている箇所から, 個別のダウンロードページに移動し取得する。ダウンロード(裏口) 上記したページからでは, 「dump aborted」や「Dump in progress」へのリンクしかなく, 目的の言語版へのリンクが見付からない場合がまれにある。そのような場合, 以下のURLから直接接続する。日本語版英語版中国語版
kiryuu 2009/02/04
wikipediaデータのDL方法

wikipedia

XML
リンク
Index of /jawiki/
../ 20241001/ 20-Nov-2024 09:28 - 20241020/ 01-Dec-2024 09:26 - 20241101/ 20-Dec-2024 09:29 - 20241120/ 01-Jan-2025 09:27 - 20241201/ 20-Jan-2025 09:29 - 20241220/ 23-Dec-2024 13:47 - 20250101/ 05-Jan-2025 16:47 - 20250120/ 23-Jan-2025 20:42 - latest/ 23-Jan-2025 20:42 -
kiryuu 2008/11/13
wikipedia日本語版のデータダウンロード

wikipedia

XML
リンク
MeCabで、キーワード抽出 - プログラマでありたい
形態素解析器として圧倒的な性能を誇るMeCabですが、出来る事は形態素解析にとどまりません。公式ページにも載っているように、辞書さえカスタマイズすればひらがな⇔カタカナ変換やAutoLinkの作成といったことまで出来ます。 WikipediaのデータとMeCabを使えば、高速なキーワード抽出が出来ないかなと思い試してみました。辞書の定義にコストを書けば、長いキーワードを優先して抽出する最長一致法が出来そうです。それが出来れば、辞書にキーワードを登録すればおっけいかなと思い実験です。準備・Mecabのインストール省略・Wikipediaのダウンロード wikipediaからコーパスの作成を参照・辞書生成用のCSV作成 xml2sqlで作ったpage.txtを変換します。この際、(曖昧さ回避)は除いておきます。併せて、カンマが入っている見出し文は、別のものに置き換えておくこと c
kiryuu 2008/08/18
Mecab

コーパス

wikipedia

辞書
リンク
1

お知らせ

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx

はてなブックマーク

タグ

関連タグで絞り込む (4)

wikipediaに関するkiryuuのブックマーク (3)

お知らせ

今週のはてなブックマーク数ランキング（2025年2月第4週）

今週のはてなブックマーク数ランキング（2025年2月第3週）

今週のはてなブックマーク数ランキング（2025年2月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

関連タグで絞り込む (4)

wikipediaに関するkiryuuのブックマーク (3)

Wikipediaデータの利用方法について - FreeStyleWiki

Index of /jawiki/

MeCabで、キーワード抽出 - プログラマでありたい

お知らせ

今週のはてなブックマーク数ランキング（2025年2月第4週）

今週のはてなブックマーク数ランキング（2025年2月第3週）

今週のはてなブックマーク数ランキング（2025年2月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス