[B! algorithm] hideokiのブックマーク

hideoki id:hideoki

algorithmに関するhideokiのブックマーク (31)

Algorithm - 連想配列の実装としてのハッシュはオワコン? : 404 Blog Not Found
2012年01月17日11:45 カテゴリアルゴリズム百選Tips Algorithm - 連想配列の実装としてのハッシュはオワコン? 珠玉のプログラミング Jon Bentley / 小林健一郎訳つまり「終わったコンテナ」。以前からうすぼんやりと考えて来た危惧が、すこしはっきりと見えてきた。徳丸浩の日記: Webアプリケーションに対する広範なDoS攻撃手法(hashdos)の影響と対策もうそろそろハッシュ(テーブル)以外の手段の連想配列の実装手段を本格的に模索するべきではないか、と。そのデータ構造は、君の魂を差し出すに足るものかい? 連想配列(Associative array)がコレクション(Collection)、すなわち数多のデータ構造をまとめるデータ構造としての覇者となったのはもはや疑いようがない事実でしょう「配列で実装されるデータ構造ではなくて、配列を実装するデータ構
hideoki 2012/01/18
algorithm
リンク
形態素解析と検索APIとTF-IDFでキーワード抽出
形態素解析と検索APIとTF-IDFでキーワード抽出 2005-10-12-1 [Programming][Algorithm] 形態素解析器と Yahoo! Web 検索 API と TF-IDF を使ってキーワード抽出するという先日の検索会議でのデモ、KEYAPI[2005-09-30-3]。教科書に載っているような基本中の基本ですが、あらためてエッセンスを簡単な例で解説したいと思います。目的：キーワード抽出対象テキストから、そのテキストを代表するキーワードを抽出します。TF-IDF という指標を用います。（この値が大きいほどその単語が代表キーワードっぽいということでよろしく。） TF-IDF を計算するためには、 (1) キーワード抽出対象テキスト中の代表キーワード候補出現数 (TF)、 (2) 全てのドキュメント数 (N)、 (3) 代表キーワード候補が含まれるドキュメ
hideoki 2011/02/04
algorithm
リンク
検索エンジンはいかにして動くのか？記事一覧 | gihyo.jp
運営元のロゴ Copyright © 2007-2025 All Rights Reserved by Gijutsu-Hyoron Co., Ltd. ページ内容の全部あるいは一部を無断で利用することを禁止します⁠。個別にライセンスが設定されている記事等はそのライセンスに従います。
hideoki 2010/04/06
search

algorithm
リンク
一番右端の立っているビット位置を求める「ものすごい」コード - 当面C#と.NETな記録
一番右端の立っているビット位置(RightMostBit)を求めるコードで速いのないかなーと探していたら、ものっっっすごいコードに出会ってしまったのでご紹介。2ch のビット演算スレで 32bit 値のコードに出会って衝撃を受けて、その後 64bit 値版のヒントを見つけたのでコードを書いてみました。この問題はハッカーのたのしみ―本物のプログラマはいかにして問題を解くか (Google book search で原著 Hacker's delight が読めたのでそれで済ませた) で number of trailing zeros (ntz) として紹介されています。bit で考えたときに右側に 0 がいくつあるかを数えるもの。1 だと 0、2 だと 1、0x80 なら 7、12 なら 2 といったぐあい。0 のときに表題どおりの問題として考えるといくつを返すの？ってことになるので、
hideoki 2009/07/14
algorithm
リンク
Web上の膨大な画像に基づく自動画像補完技術の威力 - A Successful Failure
画像内に映り込んだ所望のオブジェクトを排除し、違和感の無い画像を生成するシーン補完技術に関しては近年複数の研究成果が発表されている。しかし中でも2007年のSIGGRAPHにて米カーネギメロン大のJames HaysとAlexei A. Efrosが発表した手法*1はブレークスルーとなりうる画期的なものだ。論より証拠、早速適用例を見てみよう。本エントリで利用する画像はPresentationからの引用である。元画像の中から邪魔なオブジェクト等の隠蔽すべき領域を指定すると、その領域が補完された画像が自動的に生成される。アルゴリズム効果は抜群だがアイデア自体は単純なものだ。Web上には莫大な数量の画像がアップされており、今や対象となる画像の類似画像を一瞬にして大量に検索することができる。そこで、検索された類似画像で隠蔽領域を完全に置き換えてしまうことで違和感の無い補完画像を生成するのだ。
hideoki 2009/07/01
algorithm
リンク
クラスタリングツール「bayon」を試してみた - download_takeshi’s diary
夜中の3時半過ぎですが、久しぶりになんか書こうと思います。ちょっと前にmixiのfujisawaさんという方がすごくナイスなソフトウェアをリリースしてくれました。「軽量データクラスタリングツールbayon」 http://alpha.mixi.co.jp/blog/?p=1049 今までにもCLUTOというすごく高精度なクラスタリングツールがありましたが、こいつはライセンス的にちょっとイケズな感じでした。そこにbayonがスーパーマンのように登場してくれました！「商用利用OKだよ」ということで、仕事の上での悩みが解決しました。本当にありがたいことです。さてさて、早速使ってみたいんですが、ブログに書くのにちょうどいい題材がなかったので、以前に自分が書いたエントリからデータを持ってくることにしました。「芸能人の相関関係を探ってみるスクリプト」 http://d.hatena.ne.jp
hideoki 2009/06/23
bayon

algorithm
リンク
クラスタリングの定番アルゴリズム「K-means法」をビジュアライズしてみた - てっく煮ブログ
集合知プログラミングを読んでいたら、K-means 法（K平均法）の説明が出てきました。K-means 法はクラスタリングを行うための定番のアルゴリズムらしいです。存在は知っていたんだけどいまいちピンときていなかったので、動作を理解するためにサンプルを作ってみました。クリックすると１ステップずつ動かすことができます。クラスタの数や点の数を変更して、RESET を押すと好きなパラメータで試すことができます。こうやって１ステップずつ確認しながら動かしてみると、意外に単純な仕組みなのが実感できました。K-means 法とはK平均法 - Wikipedia に詳しく書いてあるけど、もうすこしザックリと書くとこんなイメージになります。各点にランダムにクラスタを割り当てるクラスタの重心を計算する。点のクラスタを、一番近い重心のクラスタに変更する変化がなければ終了。変化がある限りは 2. に戻る。これ
hideoki 2009/04/15
algorithm
リンク
【人工知能】物理エンジンで人工生命つくって学習させた
運動学習させました。この仮想生物が試行錯誤をして動き方を学習しました。この動画はマルチエージェント進化シミュレータのanlifeを開発していたときに作りました。2020/10/4 追記この後作ったゾンビを宮崎駿監督にみていただいたところが2016年にNHKで放送され一部話題になりました。2016年超会議での超人工生命の生放送企画を経て、ドワンゴにて新たな人工生命を開発することに→ リリース後半年でサービスクローズ人工生命を作る会社を立ち上げました→ https://attructure.com/
hideoki 2009/03/12
algorithm

science
リンク
Perlのstable quicksort - てきとうなメモ
stableなquicksortないかなと思っていろいろ探していたらPerlのquicksortがstableな実装だった． perl5.10.0のpp_sort.cより引用． Perlのquicksortについては以下のようなデータ構造を利用している． indir list1 +----+ +----+ | | --------------> | | ------> first element to be sorted +----+ +----+ | | --------------> | | ------> second element to be sorted +----+ +----+ | | --------------> | | ------> third element to be sorted +----+ +----+ ... +----+ +----+ | | ----
hideoki 2009/03/09
algorithm

perl
リンク
DO++: 機械学習による自然言語処理チュートリアル
自然言語処理のときに使う機械学習手法のテクニックをざーっと２時間程度で紹介してほしいとのことだったので今日話してきました。基本的に、そんなに頑張らなくても効果が大きいものを中心に説明（特にパーセプトロンとか）を説明してます。紹介した手法はパーセプトロン、最大エントロピー、正則化、多クラス分類、系列分類（CRF, Structured Perceptron）などなどです。どれも一かじりする感じで網羅的に見る方を優先してます。個々の詳しい話はそれぞれの文献や実装などを当たってみてください。スライド [ppt] [pdf] ここで話しているのは線形識別モデルの教師有り学習が中心で教師無し学習（クラスタリングなど）など他の自然言語処理を支える技術は省いてます。こういうのを使って（使わなくてもいいけど）どんどんアプリケーション作らないといかんね。 Tarot is not used to ma
hideoki 2009/02/25
algorithm
リンク
新はてなブックマークでも使われてるComplement Naive Bayesを解説するよ - 射撃しつつ前転改
新はてブ正式リリース記念ということで。もうリリースから何週間も経っちゃったけど。新はてなブックマークではブックマークエントリをカテゴリへと自動で分類しているが、このカテゴリ分類に使われているアルゴリズムはComplement Naive Bayesらしい。今日はこのアルゴリズムについて紹介してみる。 Complement Naive Bayesは2003年のICMLでJ. Rennieらが提案した手法である。ICMLというのは、機械学習に関する（たぶん）最難関の学会で、採択率はここ数年は30%を切っている。2003は119/371で、32.1%の採択率だったようだ。 Complement Naive Bayesの位置づけは実装が簡単学習時間が短い性能もそこそこよいという感じで、2003年段階にあっても、絶対的な性能ではSVMに負けていた。しかし、学習が早いというのは実アプリケーシ
hideoki 2009/01/16
algorithm
リンク
これからのDouble Arrayは動的更新に対応するべき - 射撃しつつ前転改
Double Arrayのコードなんて1年以上いじってないくせになにを言ってるんだこの口はと言う感じですが、Double Arrayを作るのであれば、動的更新に対応させるべきであると、そう思うわけです。 Double Arrayのメリットは Trieである速い (Ternary Search Treeとかと比べると)サイズも小さいという感じだった訳ですが、速度はともかく、サイズではTxが使っているようなLOUDSやLOUDS++などの圧縮しちゃう方式に勝てないので、静的な辞書としては、速度が超重要なところ以外ではLOUDSやLOUDS++を使った辞書を使うのがいいのかなと思う訳です。辞書引き以外の部分がボトルネックであることも多いだろうしね。と言うわけで、簡潔データ構造に比較してDouble Arrayでなにか便利な事ができないかなというと、圧縮をかける方式ではやはり、動的な更新が難
hideoki 2009/01/15
algorithm
リンク
高速かつ省メモリで文字列を扱うデータ構造「wavelet tree」
はじめに大規模なデータを扱うアプリケーションでは、速度とともに作業領域量も大きな問題となります。作業領域がメインメモリに収まらない場合、スワッピングが発生し、大幅な速度低下につながります。そのため近年、データ構造は高速なだけでなく、作業領域量が小さいことも求められています。今回紹介するのは2003年に提案されたデータ構造、wavelet tree（以下「WT」と表記）です。WTは圧縮索引やSuccinct Data Structureなど、データをコンパクトに表現する際に重要なデータ構造です。WTは文字列T[0...n-1]が与えられた時、次の2つの操作を定数時間でサポートします。 rank(p, c)――T[0...p]中のcの出現回数を返す select(i, c)――(i+1)番目のcの位置を返す WTの作業領域量は、文字列をそのまま保存した時の約2倍程度です。対象読者 C++の
hideoki 2008/12/25
programming

algorithm
リンク
Algorithms with Python
サービス終了のお知らせいつもYahoo! JAPANのサービスをご利用いただき誠にありがとうございます。お客様がアクセスされたサービスは本日までにサービスを終了いたしました。今後ともYahoo! JAPANのサービスをご愛顧くださいますよう、よろしくお願いいたします。
hideoki 2008/10/10
algorithm
リンク
Data Structures for Text Sequences
Next: Introduction Data Structures for Text Sequences Charles Crowley University of New Mexico Abstract: The data structure used ot maintain the sequence of characters is an important part of a text editor. This paper investigates and evaluates the range of possible data structures for text sequences. The ADT interface to the text sequence component of a text editor is examined. Six common sequenc
hideoki 2008/10/02
algorithm

programming
リンク
gperf - GNU Project - Free Software Foundation (FSF)
hideoki 2008/01/24
完全ハッシュ関数ジェネレータ

gnu

algorithm

hash
リンク
最小完全ハッシュ関数の作り方
■順列型の最小完全ハッシュ関数０から４までの５個の数字が下のように並んでいる場合を例にして説明します。５個の数字の並べ方は５！通りありますので５！(=120)通りの並べ方の総てに対して0から119までの数値を一意に割り付けることが目的となります。３４１０２ここでは左側から順に数字を見ていくことにします。最初の数字は３で残りの数字の個数は４個ですね。この残れさた数字の個数分の総順列数は４！ですが、この数量を基数と言います。つまり左端の数字が何であるかを完全に識別する為に最低限必要な基本となる重みのことです。従って先ず最初の数字３に基数である４！を掛け算してはじき出します。 [３]４１０２　→　３＊４！次に左から２番目の数字ですが、ここから先はとても注意が必要です。２番目の数字は４で残りの数字の個数は３個です。残りの数字の個数が３個なので基数は３！になります。つまり基数が変化
hideoki 2008/01/11
algorithm
リンク
Dynamic Double-Array Library
ダブル配列（ Double-Array ）とは，トライ（ Trie ）のデータ構造の一つで，「小さい辞書で高速な検索」が特長になります．トライを表現したデータ構造ですから，「入力文字列の前方部分列と一致するキーの検索」が可能です．使い方としては，フィルタリングや構文解析，形態素解析などがあります．ライブラリとしては，おそらく Darts が有名です． Darts: Double-ARay Trie System
hideoki 2007/12/26
algorithm
リンク
高速な算術圧縮を実現する「Range Coder」：CodeZine
はじめに　本記事では、全体のサイズが最小となる算術圧縮を高速に実現するRange Coder（以下RC）を紹介します。　算術圧縮は、各文字の出現確率が分かっている場合にそのデータを最小長で表現可能な符号法です。各文字に固定の符号を割り当てるHuffman法とは違い、符号化を状態更新とみなし、すべての文字を符号し終わった後の状態を保存することで符号化を実現します。これにより1文字単位の符号長を1bitより細かく調整することが可能となります。　算術符号は圧縮率が高い反面、ビット単位の演算処理が大量に発生するため、符号化、復号化ともにHuffman符号に比べ遅いという問題点があります。今回紹介するRCは、算術符号の処理をバイト単位で行うことで高速な処理を可能にします。　また、算術圧縮については概要から説明します。対象読者　C++の利用者を対象としています。データ圧縮の基礎を知っていることが望まし
hideoki 2007/12/25
algorithm

compress
リンク
Tx: Succinct Trie Data Structure
English 概要 TxはコンパクトなTrieを構築するためのライブラリです．従来のTrieの実装（darts等）に比べ1/4〜1/10の作業領域量で辞書を保持することができ、数億〜十億キーワードなど大規模な辞書を扱うことが可能です．Trieは文字列からなるキー集合を処理するデータ構造で、キーが辞書に含まれているかのみではなく、キーのPrefixが含まれているかを高速に求めることができます．内部データ構造にはSuccinct Data StructureであるLevel-Order Unary Degree Sequence (LOUDS)を利用しています．ダウンロード Txはフリーソフトウェアです．BSD ライセンスに従って本ソフトウェアを使用,再配布することができます. tx-0.12.tar.gz: HTTP Archives tx-0.11.tar.gz: HTTP tx
hideoki 2007/12/25
algorithm

trie

c++
リンク
1 2 次のページ