タグ

eucに関するfubaのブックマーク (2)

  • 簡単な日本語文区切りプログラムの雛型

    since 2003-03-27, last update 2003-03-29 山下達雄 はじめに この文書の目的は、 「日語 (EUC-JP) の処理を jperl や最新の perl や特別 なモジュールなしの環境でも安心して行えるようにするノウハウ」 の紹介です。 まあ、なんというか、バッドノウハウですね。 「過去に jperl で書かれたプログラム遺産をどうやって perl で動かすか?」という問題も解決するかもしれません。 例として、日語の文切りを取り上げます。 問題 EUC-JP で書かれた日語テキストファイルを仮定して、 「。」や「.」をヒントに自動的に文を区切るプログラムを考えます。 いきなりですが、昔あった jperl というのを使えば、 以下のようなプログラムを書くだけでおしまいです。めでたし、めでたし (プログラムも EUC-JP で書かれていると仮定します)

    fuba
    fuba 2006/04/27
    use utf8と行きたいところだけど、NLPの世界はEUCの遺産に満ちているので難しいな
  • 文字化け防止漢詩

    文字化け防止漢詩 2005-11-17-2 「美乳」で文字化けが直るって当? <http://www.shtml.jp/mojibake/binew.html> を読んで、文字化け防止漢詩を作りました。 EUC-JP で 2 バイト目が 0xFD or 0xFE の漢字だけで。 美乳癒理 § 美乳の癒 (いやし)、これ理 (ことわり) なり 憎増傷増 § しかし、嫉妬され、憎まれ、傷も増える 傷口刷込 § しかも、傷口に口蹄疫の蛸の油をすりこまれる! Σ(゚∀゚;) 口蹄蛸油 § ああ、なんて無情な世の中なのか <!-- 美乳癒理憎増傷増傷口刷込口蹄蛸油 --> をヘッダに入れとくと 文字化け退散! 「蛸が口蹄疫?」とか「刷り込み」と「擦り込み」の 違いとか、あまり気にしないで...。 § ふむ Wiki にあったコンテンツをこちらに引き上げてきました。 初出

  • 1