[B! unicode] hakobe932のブックマーク

hakobe932 id:hakobe932

unicodeに関するhakobe932のブックマーク (9)

日本語 (EUC-JP)の substr …について : にぽたん研究所
どうも気になったので。。。 shag の日記 - 日本語(EUC-JP)の substr 今の Perl(5.8 以降)は文字列が utf8 だったら標準添付の substr() を使って終了なネタなわけだが、わけあって EUC-JP な文字列で日本語も 1 文字と数えて substr をするサブルーチンを考えてみた。今さら。かの有名な Perlメモに日本語(EUC-JP)を含む文字列の split というのが(文字単位に分割する)あるんだけど、これを参考に euc_substr() というサブルーチンを書いてみた。一応 offset だけでもイケル。なんか、euc_substr($str, 0, 5) と、LENGTH を 5 に指定しているのに、6 文字切り出されるのは正しい動きだと思いがたかったのと、 use strict; use Encode; sub euc_substr
hakobe932 2006/07/20
文字コードまわり難しい

perl

unicode

文字コード
リンク
iandeth. - 文字列のutf8-flag状態を手軽に調べる - DBI::data_string_desc()
yet another way to peek at scalar's utf8-flag... DBIモジュールのperldocを読んでいて「む、これイイかも」と思えたユーティリティ関数。任意の文字列なりスカラ変数なりを渡すと、utf8-flag状態 / ascii or non-ascii 判定 / 文字数 / バイト数 ... 等の詳細情報をポロッと返してくれます。 use DBI; print DBI::data_string_desc('hoge');#実行結果 UTF8 off, ASCII, 4 characters 4 bytes 以下、いろんなパターンでの実行結果: # 'abc' UTF8 off, ASCII, 3 characters 3 bytes # utf8 flagged 'abc' UTF8 on, ASCII, 3 characters 3 bytes
hakobe932 2006/07/07
文字コード

unicode

perl
リンク
シフトJIS / EUC-JPとUnicodeとの妥当な変換表: Netsphere Laboratories
2004.10.17 新規作成。2004.12.19 加筆。2005.04.02加筆。最近、コンピュータで扱う文字列の文字コードがUnicodeでなければならない場面が増えてきた。UnicodeとシフトJIS、EUC-JPを変換する機会が多い。この変換は変換表で行うが、変換表が実際的なものでなければ、文字化けが発生することになる。おかしな変換表は、これまでは、特にLinuxなどの上で動作するオープンソースソフトウェアで多く見られた。おそらく規格原理主義者が多かったためだろう。そもそも、規格どおりに変換表を作ると、実用的な変換表にはならない。しかし、最近ではまともな変換表を実装しているものも増えてきて、うまく選ぶだけでいいようになってきている。変換表の違いをまとめたページはよく見かけるが、実際にどのような条件を満たして変換するものを選べばいいか不明なので、まとめてみた。変換表に求めら
hakobe932 2006/07/01
文字コード

unicode
リンク
Unicode::Normalize で遊ぶ - daily dayflower
Unicode の規格では，文字の合字（リガチャ等）等を統一的に扱えるように，「正規化」という処理が仕様として定まっています。この正規化処理のうち「互換性分解」という処理を行うと副作用として半角カナを全角カナに変換できます（逆に全角カナ→半角カナはできません）。 #!/usr/bin/perl use strict; use utf8; use Encode; use Unicode::Normalize; my $src = 'ﾎﾟﾝｼﾞｭｰｽ'; my $dst = Unicode::Normalize::NFKC($src); print Encode::encode('utf8', "${src} => ${dst}\n"); # OUTPUT is: ﾎﾟﾝｼﾞｭｰｽ => ポンジュースUnicode の正規化についてはperl5.8のUnicodeサポートおよび http:/
hakobe932 2006/06/24
文字コードまわりていろいろできることあるのだな

unicode

perl

文字コード
リンク
daily dayflower - 半角←→全角変換，Unicode::Japanese に未公開機能が…
2008-10-21 追記いまだに（ありがたいことですが）検索で飛んできたりブクマされたりというのがちょいちょいあるので，最新動向を書いておきます。 id:tokuhirom さんが Lingua::JA::Regular::Unicode という Pure Perl Module をリリースなさいました（→ http://d.hatena.ne.jp/tokuhirom/20081018/1224300947）。あなたが作っているアプリで文字列まわりを Unicode::Japanese インスタンスですべて持ちたいわけでなければ（そして，たいていのばあい，持つ必要はないのですが），この Lingua::JA::Regular::Unicode を使うのがベターです。依存性もなく，とても軽量ですので。 2008-10-21 追記おわりウェブアプリを作っていると，ユーザが入力した半角
hakobe932 2006/06/02
へぇぇぇこれは使う必要あるときがきそう

cpan

unicode

perl

文字コード
リンク
lowlife.jp
lowlife.jp 2024 著作権. 不許複製プライバシーポリシー
hakobe932 2006/05/25
Pythonの文字コード周りはちょいめんどいのでチェック

python

unicode

文字コード
リンク
Perl 5.8.x Unicode 関連
hakobe932 2006/05/24
文字コードの作法いろいろ

文字コード

perl

unicode
リンク
Life with Cygwin
沖ソフトウェア株式会社は、沖通信システム株式会社および株式会社沖インフォテックと平成22年10月1日をもって合併いたしました。新会社名は、株式会社OKIソフトウェアとなります。3社が行っております事業は新会社にて従来通り継続いたします。
hakobe932 2006/03/08
python

unicode
リンク
Unicode HOWTO
サービス終了のお知らせいつもYahoo! JAPANのサービスをご利用いただき誠にありがとうございます。お客様がアクセスされたサービスは本日までにサービスを終了いたしました。今後ともYahoo! JAPANのサービスをご愛顧くださいますよう、よろしくお願いいたします。
hakobe932 2006/03/08
python

unicode
リンク
1