Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

タグ

unicodeに関するhakobe932のブックマーク (9)

  • 日本語 (EUC-JP)の substr …について : にぽたん研究所

    どうも気になったので。。。 shag の日記 - 日語(EUC-JP)の substr 今の Perl(5.8 以降)は文字列が utf8 だったら標準添付の substr() を使って終了なネタなわけだが、わけあって EUC-JP な文字列で日語も 1 文字と数えて substr をするサブルーチンを考えてみた。今さら。 かの有名な Perlメモに日語(EUC-JP)を含む文字列の split というのが(文字単位に分割する)あるんだけど、これを参考に euc_substr() というサブルーチンを書いてみた。一応 offset だけでもイケル。 なんか、euc_substr($str, 0, 5) と、LENGTH を 5 に指定しているのに、6 文字切り出されるのは正しい動きだと思いがたかったのと、 use strict; use Encode; sub euc_substr

    日本語 (EUC-JP)の substr …について : にぽたん研究所
    hakobe932
    hakobe932 2006/07/20
    文字コードまわり難しい
  • iandeth. - 文字列のutf8-flag状態を手軽に調べる - DBI::data_string_desc()

    yet another way to peek at scalar's utf8-flag... DBIモジュールのperldocを読んでいて「む、これイイかも」と思えたユーティリティ関数。任意の文字列なりスカラ変数なりを渡すと、utf8-flag状態 / ascii or non-ascii 判定 / 文字数 / バイト数 ... 等の詳細情報をポロッと返してくれます。 use DBI; print DBI::data_string_desc('hoge');#実行結果 UTF8 off, ASCII, 4 characters 4 bytes 以下、いろんなパターンでの実行結果: # 'abc' UTF8 off, ASCII, 3 characters 3 bytes # utf8 flagged 'abc' UTF8 on, ASCII, 3 characters 3 bytes

  • シフトJIS / EUC-JPとUnicodeとの妥当な変換表: Netsphere Laboratories

    2004.10.17 新規作成。2004.12.19 加筆。2005.04.02加筆。 最近、コンピュータで扱う文字列の文字コードがUnicodeでなければならない場面が増えてきた。UnicodeとシフトJIS、EUC-JPを変換する機会が多い。この変換は変換表で行うが、変換表が実際的なものでなければ、文字化けが発生することになる。 おかしな変換表は、これまでは、特にLinuxなどの上で動作するオープンソースソフトウェアで多く見られた。おそらく規格原理主義者が多かったためだろう。そもそも、規格どおりに変換表を作ると、実用的な変換表にはならない。しかし、最近ではまともな変換表を実装しているものも増えてきて、うまく選ぶだけでいいようになってきている。 変換表の違いをまとめたページはよく見かけるが、実際にどのような条件を満たして変換するものを選べばいいか不明なので、まとめてみた。 変換表に求めら

  • Unicode::Normalize で遊ぶ - daily dayflower

    Unicode の規格では,文字の合字(リガチャ等)等を統一的に扱えるように,「正規化」という処理が仕様として定まっています。この正規化処理のうち「互換性分解」という処理を行うと副作用として半角カナを全角カナに変換できます(逆に全角カナ→半角カナはできません)。 #!/usr/bin/perl use strict; use utf8; use Encode; use Unicode::Normalize; my $src = 'ポンジュース'; my $dst = Unicode::Normalize::NFKC($src); print Encode::encode('utf8', "${src} => ${dst}\n"); # OUTPUT is: ポンジュース => ポンジュースUnicode の正規化についてはperl5.8のUnicodeサポート および http:/

    Unicode::Normalize で遊ぶ - daily dayflower
    hakobe932
    hakobe932 2006/06/24
    文字コードまわりていろいろできることあるのだな
  • daily dayflower - 半角←→全角変換,Unicode::Japanese に未公開機能が…

    2008-10-21 追記 いまだに(ありがたいことですが)検索で飛んできたりブクマされたりというのがちょいちょいあるので,最新動向を書いておきます。 id:tokuhirom さんが Lingua::JA::Regular::Unicode という Pure Perl Module をリリースなさいました(→ http://d.hatena.ne.jp/tokuhirom/20081018/1224300947)。 あなたが作っているアプリで文字列まわりを Unicode::Japanese インスタンスですべて持ちたいわけでなければ(そして,たいていのばあい,持つ必要はないのですが),この Lingua::JA::Regular::Unicode を使うのがベターです。依存性もなく,とても軽量ですので。 2008-10-21 追記おわり ウェブアプリを作っていると,ユーザが入力した半角

    daily dayflower - 半角←→全角変換,Unicode::Japanese に未公開機能が…
    hakobe932
    hakobe932 2006/06/02
    へぇぇぇこれは使う必要あるときがきそう
  • lowlife.jp

    lowlife.jp 2024 著作権. 不許複製 プライバシーポリシー

    hakobe932
    hakobe932 2006/05/25
    Pythonの文字コード周りはちょいめんどいのでチェック
  • Perl 5.8.x Unicode 関連

    hakobe932
    hakobe932 2006/05/24
    文字コードの作法いろいろ
  • Life with Cygwin

    沖ソフトウェア株式会社は、沖通信システム株式会社および株式会社沖インフォテックと平成22年10月1日をもって合併いたしました。新会社名は、株式会社OKIソフトウェアとなります。3社が行っております事業は新会社にて従来通り継続いたします。

  • Unicode HOWTO

    サービス終了のお知らせ いつもYahoo! JAPANのサービスをご利用いただき誠にありがとうございます。 お客様がアクセスされたサービスは日までにサービスを終了いたしました。 今後ともYahoo! JAPANのサービスをご愛顧くださいますよう、よろしくお願いいたします。

  • 1