[B! compression][bwt] hiromarkのブックマーク

BlockSorting

BlockSortingは、今までのデータ圧縮で有名な方法であるLZ法とは全く違う、ユニークな操作を用いてデータを圧縮する方法であり、M.BurrowsさんとD.J.Wheelerさんが作者なので「BWTransf orm」ともいいます。このアルゴリズムは簡単に言ってしまえば、「データをぐるぐる回してソートして出力」というものです。簡単すぎるかもしまいませんが、本当にそうなんです。ちなみに、このBlockSorting、単体では全く圧縮しません。ただ可逆な形にデータを変換するというものです。しかし、BlockSorting後のデータは非常に圧縮されやすい状態になります。例えると、色々な形をしたスポンジ（データ）が箱にごちゃごちゃに入って山積みになっているとします。　これをそのまま上からギューっと押しつぶすのがLZ法やHuffman法なのに対し、一度、形が似たも

hiromark 2009/11/17

お、わかりやすい。

リンク

サービス終了のお知らせ

サービス終了のお知らせいつもYahoo! JAPANのサービスをご利用いただき誠にありがとうございます。お客様がアクセスされたサービスは本日までにサービスを終了いたしました。今後ともYahoo! JAPANのサービスをご愛顧くださいますよう、よろしくお願いいたします。

hiromark 2009/09/08

すごいまとまってる。

リンク

mots quotidiens. - PPM, 言語モデル, Burrows-Wheeler Transform

電通大の情報理論の韓太舜先生の最終講義が3月にあって, スライドがここから見られるのを知った。院生のときに『情報と符号化の数理』 (岩波書店応用数学)を読んで, その明晰な内容と込められた哲学に感動したので, 感慨深いです。 16ページ目の内容が本当なら, Weber-Fechnerの法則が理論から導けるということなのだろうか.. フルテキストは1975年なので, 閲覧制限がかかっていて見れないのが残念。他も, 全体的に非常に興味深いのですが, とりあえず最後がワラタ。(笑) 論文の準備のためにPPM,PPM*,CTWなど圧縮関係の論文を(完璧ではないと思いますが), 色々読んでみた。 PPMについては, 北先生のところで1998年に, PPM*を使った言語モデルの話が出ています。さて, PPMは岡野原君が言語モデルと似ているという話を書いているのですが,

hiromark 2009/09/08

この辺の深堀りけっこうたのしい。

リンク

BWT と PPM - naoyaのはてなダイアリー

Burrows Wheeler Transf orm (BWT, Block-sorting) と Prediction by partial matching (PPM) は本質的に同じ事をやっている、というお話です。先日 Managing Gigabytes を読んでいたところ、P.69 で "block sorting is very closely related to the PPM* method, which is a variant of PPM that allows arbitrary-length contexts." という記述があり、どうにも気になったので調べてみました。サマリとしては、BWT と PPM の一種である PPM* はいずれも文脈から次の1文字を一意に決定するという概念で見ると本質的に同じことをやっていると言える、というところです。 BWT のあら

hiromark 2009/09/08

"BWT と PPM は本質的に同じことをしている"

リンク

Algorithm::MTF / BWT → MTF → Range Coder によるデータ圧縮 - naoyaのはてなダイアリー

先日言及した Burrows Wheeler Transf orm (id:naoya:20081016:1224173077) による変換後のテキストは圧縮に使えたり、全文索引に利用できたりと応用範囲は広いです。 BWT により変換したテキストを圧縮するには、そのまま圧縮するのではなく先頭移動法 (Move-To-Front http://ja.wikipedia.org/wiki/Move_To_Front) を適用することでより情報に偏りを持たせてから圧縮するのがセオリーです。今日は先頭移動法の Perl 実装を作ってみました。Algoritm::MTF です。 http://github.com/naoya/perl-algorithm-mtf/tree/master に置いています。 use Algorithm::MTF; my $encoder = Algorithm::MTF

hiromark 2008/10/20

MTF の Perl 実装

リンク

ブロックソート - Wikipedia

ブロックソート、ブロックソーティング、Burrows-Wheeler変換 (Burrows-Wheeler Transf orm; BWT) は、1994年にマイケル・バローズ (Michael Burrows) とデビッド・ホイーラー (David Wheeler) が開発した可逆変換の方式で、データ圧縮の前処理に応用される。ブロックソート自体はデータの大きさを変えない。しかし、データを整列することでデータ中に出現するパターンを、いくつかのよく知られている手法で圧縮し易いものにできる。後処理としてMove To Front (MTF)・連長圧縮 (RLE)・エントロピー符号と組み合わせて、データを圧縮する。実装はbzip2等。長さ n のデータを巡回シフトし、得られるすべての文字列を辞書順にソートする。このようにしてできた n×n 行列の第 n 列を取り出したものが、BWT系列である

hiromark 2008/10/13

"実際に圧縮に応用するには後処理が必要となる。実用上はMTF (Move-To-Front) 法、RLE、エントロピー符号が用いられる。"

リンク

はてなブックマーク

タグ

関連タグで絞り込む (5)

compressionとbwtに関するhiromarkのブックマーク (6)

お知らせ

今週のはてなブックマーク数ランキング（2025年1月第4週）

【完了】はてなブックマークの計画メンテナンスのお知らせ（2025年1月31日(金) 深夜1:30〜3:00）

ブックマークしたエントリーのタイトル変更機能の提供を一時的に停止します

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス