Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

タグ

programmingに関するomochistのブックマーク (50)

  • MeCabの辞書にはてなキーワードを追加しよう - 不可視点

    MeCabは形態素解析のためのソフトウェアです。日語を分かち書きするために使われるものとしては最も人気の高いものだと思われますが、チャットや掲示板に書き込まれるような崩した日語や、正しく書かれた日語でも新語を期待した通りに分かち書きしてくれないことがあります。これはMeCabの内部で使われている辞書が一般的な言葉を情報源としているわけではないことに関係があります。MeCabというか、より一般的な話ですが以下のような認識が一般的かと思われます。 というのも、一番広く使われているであろう自然言語処理技術形態素解析(単語分かち書き、と言ったほうがいいのかもしれない)であろうが、これは現在99%くらいの精度になっていて、すでに人間がやるより遙かに高精度で行えるのだが、これだけ高い精度が出せるのは新聞記事を相手にしたときだけであって、それは新聞記事をコーパスとして用いる機械学習により形態素解

    MeCabの辞書にはてなキーワードを追加しよう - 不可視点
  • google-code-prettify - syntax highlighting of code snippets in a web page - Google Project Hosting

    Code Archive Skip to content Google About Google Privacy Terms

    omochist
    omochist 2009/04/13
    syntax highlight
  • Cuckoo Hashing - Radium Software

    ハッシュテーブルからエントリーを検索する処理は,一般に定数時間で済むとされている。つまり,どんなにエントリーが増えても検索の速さは変わらない,ということ。データ構造の教科書には必ず載っていることだね。 でも実際には,ハッシュの衝突が起こった場合に,速度の低下が発生する可能性がある。例えば,一般的なチェイン法(オープンハッシュ)だと,衝突したエントリーに関して線形検索を行うことになるから,衝突が多ければ多いほど,定数時間からは遠のいてしまう。 この速度低下を防ぐ方法はいろいろある。なかでも cuckoo hashing (カッコウ・ハッシング)は仕組みが面白い。こいつは,エントリーの検索を必ず定数時間で済ませてくれるという優れものなんだ。 Cuckoo hashing では,2つのハッシュ関数と,2つのテーブルを用いる。ここでは,2つのハッシュ関数をそれぞれ h1, h2 として,2つのテー

    Cuckoo Hashing - Radium Software
    omochist
    omochist 2008/06/03
    挿入より検索の方が頻度は高いから,これで良いのか.
  • 1日で作る全文検索エンジン - Building a full-text search engine in "ONE" day - - とあるはてな社員の日記

    最近、「Introduction to Information Retrieval」というStanfordの大学院向け教科書のドラフトを読んでいます。id:naoyaあたりが勉強会で読んでいる教科書です。この教科書には、効率のいい全文検索システムを作るにはどうすればいいか、という(まさに)教科書的手法が網羅的に書いてあり、そのあたりに興味がある人には、非常に興味深く読めるお勧めのです。 ただ、面白い面白いと言っているだけでは、エンジニアとしては価値半減ですので、GW中にrubyで一日かけて実装してみました。 さすがに実装は、一日で作ったものですから、非常に素朴です。マルチバイト文字はbi-gramで、シングルバイトはスペースなどの区切り記号で認識しています。インデックスは、rubyの処理系のHashやArrayで保持しており、外部にMarshallで書き出す、というものです。検索エンジン

    omochist
    omochist 2008/05/15
    おもしろい.なぜこの仕組みで効率的なのか解説が欲しかったけど,それは本を読めばすべて分かるということか.
  • 使えるIDEを一挙まとめて:C/C++、Java、.NET、Perl、PHP、Python、Ruby:ニュース - ZDNet Japan

    印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます ソーシャルネットブログ「Mashable」に11月17日、「IDE Toolbox: 70+ IDEs for Developers」という記事が掲載されている。この記事では、対象としている言語(C/C++Java、.NETPerlPHPPythonRuby)ごとに、70以上の統合開発環境(IDE)を紹介している。 早速、その全てのラインナップをみてみよう。

    使えるIDEを一挙まとめて:C/C++、Java、.NET、Perl、PHP、Python、Ruby:ニュース - ZDNet Japan
  • OBB vs AABB - Radium Software Development

    This domain may be for sale!

  • デバッグに使えるサスペンス用語 - 学校では教えてくれないバッドノウハウ英語 #7 - bkブログ

    デバッグに使えるサスペンス用語 - 学校では教えてくれないバッドノウハウ英語 #7 学校では教えてくれないバッドノウハウ英語の7回は、"post-mortem", "tombstone", "culprit" を取り上げたいと思います。いずれもデバッグに関する議論で使える表現です。 "post-mortem", "tombstone", "culprit" の通常の意味はそれぞれ「検死」「墓石」「容疑者」です。どれもサスペンス映画に登場するような言葉ですが、ソフトウェア開でも、デバッグという一種のサスペンスの場面で使われます。 "post-mortem" は、プログラムの検死、すなわち、プログラムがなぜ死んだのかを原因調査すること、または調査結果を意味します。 例) We should perform a post-mortem analysis to make sure this doe

    omochist
    omochist 2007/02/08
    デバッグとはサスペンス
  • キミのコードが汚い理由 ― @IT情報マネジメント

    リスト1は、同じ処理を繰り返すようなコードで初心者プログラマーがよく使う幼稚なスタイルで書かれている。必ずしも複雑ではないが、筆者には散らかっていて効率が悪く見える。リスト2の方が複雑な条件になっているが、Javaを理解していれば、かなり読みやすい。唯一疑問を抱くかもしれないとしたら、最後の「else if」の中にある条件の最初の部分だけだ。このクローズに来るということは、どちらかのプレーヤーが勝ったことを意味する。 いずれのインプリメンテーションも間違ってはいない。実際、これらはどちらも非常に小さく、つまらない例にすぎないので、これらのリストでコードがいかにクリーンか論ずるのはあまり有益ではない。ただ、何をもってインプリメンテーションがクリーンなのかについて読者の興味を深めることはできるだろう。 クリーンなコードについて扱った記事、Webサイト、書籍は多数存在する。何をもってコードをクリ

  • Lisp:S式の理由

    S式は人に優しいか Shiro: Lispの不人気の理由として筆頭に上げられるのが、括弧だらけの 独特の見た目。とっつきにくい、一般的な表記法と違っていてわかりにくい、 等々、様々なことが言われてきました。しかし、 S式を捨てたLispも開発されましたが 流行ったとはいい難く、Lispな人々はいまだに括弧に固執しているかのようです。 S式のメリットをLisperに尋ねれば、エディタがどうの、マクロがどうの、といった 回答が真っ先に返って来ると思うんですが、そういう理屈をいくら理解しても S式がダメな人がS式を好きになったりはしません。どうも、もっと根的な 感覚に大きな隔たりがあるような気がします。非Lisperから理解しがたい、 Lisperの持つ感覚とはどんなものなんでしょうか。Lisp脳から見た世界は どんなものなのでしょうか。 構文木を人間が書く? S式は言ってみれば言語の構文木そ

    omochist
    omochist 2007/01/30
    括弧なんて飾りです
  • 和田英一@日本初ハッカーはちょっと変わった絵を描く/Tech総研

    「日で最初のハッカー」と呼ばれる和田英一さん。東京大学名誉教授でIIJ技術研究所所長をされながら、今でも第一線のプログラマです。お持ちになったのは山のようなHappy Hacking Keyboards。昔からの腕前で絵を描くことが趣味とおっしゃいますが、当然のように普通の「絵」ではありませんでした。

    omochist
    omochist 2007/01/30
    「パソコンは消耗品、キーボードこそ大切なインタフェースなのです。」
  • Volt Brickman.com - Origin of Programming Language Names

    omochist
    omochist 2007/01/12
    プログラミング言語の名前の起源
  • 美しいプログラムの美しくないソース : 404 Blog Not Found

    2006年12月19日17:00 カテゴリArt 美しいプログラムの美しくないソース 半分だけ同意。 304 Not Modified: プログラマの美意識 私にとって美しいプログラムとは、シンプルなプログラムのことです。なぜ半分だけ、かというと、美しくない状況をより美しくすることがプログラムの使命であるならば、結果としてソースコードが美しくならないことも往々にしてあるから。 もっと身も蓋もない言い方をすると、この世の穢れをプログラムが背負う事もまたあるのだということ。 このことは、特にAPIを提供するソースを書くときに顕著だ。こういったプログラムに求められるのは、APIが美しいことであって、ソースコードそのものが美しいことではない。そこでは、さまざまな泥臭いことはAPIを提供するプログラムがかぶることで、APIのユーザーは醜いものを気にせずにプログラムできるようになる。 実装が美しいけど

    美しいプログラムの美しくないソース : 404 Blog Not Found
    omochist
    omochist 2007/01/08
    「実装が美しいけどツカエないプログラムと、実装は醜いがツカエるプログラムとどちらがよいかといえば、後者の方に決まっている。」
  • naoya_t:ポール・グレアムのエッセイと和訳一覧

    ポール・グレアムのエッセイと和訳一覧 (originally maintained by naoya_t) Paul Grahamのエッセイ(原文)と、公開されている日語訳のリストです。 見つけたら or 訳したら、自由に追加して下さい。複数の訳が存在する場合は全て追加してください。 Writes and Writes-not 書く者と書かざる者 (spinute) Founder Mode 創業者モード (spinute) The Reddits Reddit の創業者たち (spinute) What You (Want to)* Want あなたが(望むことを)*望むこと (spinute) Alien Truth エイリアンの真実 (spinute) How to Start Google Googleのはじめ方 (yomoyomo) How to Get New Ideas 新

    naoya_t:ポール・グレアムのエッセイと和訳一覧
    omochist
    omochist 2006/10/27
    「あとで読む」っていうか「いつか読む」
  • Rogue Engineer's Diary / やさぐれ日記(2005-11-13) / 「アルゴリズム+データ構造=プログラム」? 本当に?

    omochist
    omochist 2006/10/27
    インタフェースは重要だと思います.
  • ビヘイビア駆動開発を試す - 四角い車輪の再発明

    前回の勉強会で、他の参加したいのと重なってしまい聞けなかったRSpecを試した。かくたにさん訳のチュートリアルがあるので参考にした。http://kakutani.com/trans/rspec/TUTORIAL_ja.htmlあとビヘイビア駆動開発の基的な考え方の訳はこちらにあった。(元の記事はRSpecの作者により書かれたもののようだ)http://giantech.jp/wiki/BDDIntroちなみにビヘイビア駆動開発とは、従来のテスト駆動開発がテスト手法だという誤解が多い(来はプログラム手法の一つです)ことから、まず開発手法の名前を「テスト」から離れた名前にしたかった事が発想の起源らしい。なので、ビヘイビア駆動開発と言っても、メソッド名や継承元となるクラスが異なる以外は、やろうとしている事はテスト駆動開発とほぼ同じだ。【テスト駆動開発】テストコード作成(実装を"検証"する為

    omochist
    omochist 2006/10/27
    ビヘイビア駆動開発というプログラム手法.TDDに似てる.おもしろいな.
  • 「実演テスト駆動開発」 WEB+DB PRESS Vol.35特集 特設サイト

    WEB+DB PRESS Vol.35の特集1「実演!テスト駆動開発」の特設ページです.テスト駆動開発(TDD)の実演ムービーや誌面サポート情報などを掲載しています. 更新履歴 2006年10月24日 実演ムービーの追加 タスク2「サーブレットのアクセスURLからDAOの名前を抽出する」の実演ムービー3を追加しました. 環境構築ムービーの追加 Subversion環境の構築ムービー3を追加しました. 補足情報の追加・変更 第2章~第8章の各章終了時点でのサンプルコードを公開しました.また,すでに公開済みだった第8章完全版のコードも差し替えましたので,お手数ですが再度ダウンロードしてください. 補足情報の追加 「テストフィルタ機能,受け入れテスト実行の自動化機能について」を追加しました. 補足情報の追加 「著者のEclipseテンプレートを公開!」を追加しました. 誌面訂正情報の掲載 第

  • いやなブログ - 文字列操作の比較表: Ruby, Python, JavaScript, P...

    文字列操作の比較表: Ruby, Python, JavaScript, Perl, C++ Ruby, Python, JavaScript, Perl, C++ の文字列操作の比較表を作りました。配列操作の比較表の続編です。間違いなどがあったらご指摘いただけると助かります。 Ruby (String) Python (str) JavaScript (String) Perl C++ (std::string)

    omochist
    omochist 2006/10/22
    rubyって結構色々できるんだなぁ.
  • 自転車置場の議論 - bkブログ

    自転車置場の議論 人が集まると、なぜかどうでもいいようなことほど議論が紛糾してしまう傾向がありますが、このような現象のことを、FreeBSD のコミュニティでは自転車置場の議論 (bikeshed discussion) と呼んでいることを知りました。 この、「瑣末なことほど議論が紛糾する現象」はパーキンソンの法則というの「議題の一項目の審議に要する時間は、その項目についての支出の額に反比例する」という法則として知られています。 このの中で著者は、原子炉の建設のような莫大な予算のかかる議題については誰も理解できないためにあっさり承認が通る一方で、市庁舎の自転車置場の屋根の費用や、果ては福祉委員会の会合の茶菓となると、誰もが口をはさみ始めて議論が延々と紛糾するというストーリーを紹介しています。 このように、「瑣末なことほど議論が紛糾する現象」はパーキンソン氏によって見事に説明されているの

    omochist
    omochist 2006/10/14
    なるほどなー,楽だもんなーそういう議論は.
  • デザインパターンたん - www.textfile.org

    ふと思ったんだけれど、「デザインパターンたん」って誰か考えただろうか。 他人をあやつるTemplate Methodたん。意外に融通がきかない。 心が入れ子になっているCompositeたん。箱根の寄木細工収集が趣味。 旅が好きなVisitorたん。 一見孤独そうに見えるSingletonたん。実は人付き合いが良すぎるのが欠点。 ダイエットマニアのFlyweightたん。Immutableたんは親友。 委員長属性のMediatorたん。 話が合わない二人の間を取り持つのがうまいAdapterたん。 Decoratorたんの夢は十二単。 ……書いていて脱力してきたのでおしまい。 以下は関連しそうな「OSたん」一覧。 http://en.wikipedia.org/wiki/List_of_OS-tans 追記: 嫌いなオカズは隣の人にあげちゃうChain of Responsibilityた

    デザインパターンたん - www.textfile.org
    omochist
    omochist 2006/10/13
    やさしいデザパタの覚え方?
  • Dr Nic » [ANN] Generating new gems for graceful goodliness

    Dr. Nic is the CEO and founder of Stark & Wayne. He previously served as both VP of Technology and VP of Engineering at Engine Yard. He discovered Cloud Foundry in 2011, and launched Stark & Wayne in 2012 to help the enterprise world with successfully running application container platforms. Dr Nic is a heavy user and evangelist of Cloud Foundry, Kubernetes, Rancher, Concourse CI, and BOSH. He is

    Dr Nic » [ANN] Generating new gems for graceful goodliness
    omochist
    omochist 2006/10/11
    newgemの使い方