タグ

utf8に関するkitsのブックマーク (30)

  • 金くれ

    現在一度登録した情報を編集出来ない不具合が発生しています。なんかセッション回りおかしいっぽい。そのうち直します 金くれは金が欲しい人が口座番号とメッセージを記載する、次世代ネット乞プラットフォームです。 OpenID でログイン出来ますので、どなたでも簡単に金くれ出来ます。 開発者の口座番号はイーバンク銀行 ビート支店 2028107 コイケ リクです。

    kits
    kits 2009/10/21
    「...(省略されました)」の前でUTF-8の境界がきちんと処理されていないように見える。
  • #perl - utf8::decode()ではなくEncode::decode_utf8()を使うべき理由 : 404 Blog Not Found

    2009年09月13日13:00 カテゴリLightweight Languages #perl - utf8::decode()ではなくEncode::decode_utf8()を使うべき理由 駄目です。 [を] Perl の utf8 まわりのおまじない 最近良く使うおまじない、というかイディオム。 utf8::decode($text) unless utf8::is_utf8($text); こういう場合は、Encode::decode_utf8()でないと。 以下をごらんください。 #!/usr/bin/perl use strict; use warnings; use Encode; use Devel::Peek; for my $bytes ( "\x2F", "\xC0\xAF", "\xE0\x80\xAF", "\xF0\x80\x80\xAF" ) { my $u

    #perl - utf8::decode()ではなくEncode::decode_utf8()を使うべき理由 : 404 Blog Not Found
    kits
    kits 2009/09/13
    「外部入力はEncodeに振りましょう」
  • perl - use utf8; #って何だ? : 404 Blog Not Found

    2009年06月15日07:00 カテゴリLightweight Languages perl - use utf8; #って何だ? id:otsuneに建設予定フラグがたてられていたので。 冬通りに消え行く制服ガールは、夢物語にリアルを求めない。 - subtech Perl の utf8 関係が未だ全く理解できない。わからないことがわからないので整理 use utf8はいつフラグをたてるか use utf8 しててもフラグたたないことがある…… これは、以下の実例を見ていただくのが一番よいだろう。 #!/usr/bin/perl use strict; use warnings; use utf8 (); sub check_flag{ my $str = shift; print qq("$str" ), utf8::is_utf8($str) ? 'is' : 'IS NOT',

    perl - use utf8; #って何だ? : 404 Blog Not Found
    kits
    kits 2009/06/15
    取り敢えずdecodeすれば"内部形式"になっているものと思っている。(utf8 flagのことは考えない)
  • http://d.hatena.ne.jp/Yuichirou/20090612

    kits
    kits 2009/06/12
    utf8 flagged? ではなく「バイト列」か「文字の列」かで考える、というのは強く同意。
  • はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知

    はてなグループの終了日を2020年1月31日(金)に決定しました 以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記 このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。 終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。 はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記 ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記 はてなグループ日記のエクスポートデータは2020年2月28

    はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知
    kits
    kits 2009/06/12
  • 第4回 UTF-8の冗長なエンコード | gihyo.jp

    今回は、文字コードに関連するセキュリティの話題では古参ともいえるUTF-8の冗長なエンコードというテーマについて紹介します。 UTF-8とは UTF-8は、各文字を1~4バイトの可変長で表現するUnicodeの符号化方式のひとつです。 U+0000からU+007Fの範囲の文字を0x00から0x7Fの1バイトで表現しているため、US-ASCIIと互換性がある、バイト列の途中からでも文字の先頭バイトを簡単に検出できる、多バイト文字の途中に0x00や0x5C(\⁠)⁠、0x2F(/)などが現れない、などの特徴があります。 UTF-8での文字のビットパターンは表1のようになります。 表1 UTF-8でのビットパターン

    第4回 UTF-8の冗長なエンコード | gihyo.jp
    kits
    kits 2009/05/08
    「自前でUTF-8を処理しない」
  • URIモジュールにutf8フラグつきの文字列を食わせたらquery_formのエンコードが化けたでござるの巻 - とあるモバイル系エンジニアの日々

    タイトル長い。っていうかそのまんまです。 #!/usr/bin/perl use strict; use warnings; use URI; my $s = 'http://example.com/?q=%82%e2%82%e9%95v%82%c5%8aw%82%d4'; utf8::upgrade($s); my $uri = URI->new($s); my %qf = $uri->query_form; $qf{flag} = 'ON'; $uri->query_form( %qf ); my $uri_str = $uri->as_string; これ、一見すると$uri_strは http://example.com/?q=%82%e2%82%e9%95v%82%c5%8aw%82%d4&flag=ONになりそうなんですが、実際には http://example.com/?q=

    URIモジュールにutf8フラグつきの文字列を食わせたらquery_formのエンコードが化けたでござるの巻 - とあるモバイル系エンジニアの日々
    kits
    kits 2009/02/09
    URI->new() にutf8フラグ付き文字列を渡さないよう注意。
  • tokuhirom blog

    Blog Search when-present<#else>when-missing. (These only cover the last step of the expression; to cover the whole expression, use parenthesis: (myOptionalVar.foo)!myDefault, (myOptionalVar.foo)?? ---- ---- FTL stack trace ("~" means nesting-related): - Failed at: ${entry.path} [in template "__entry.ftlh" at line 3, column 25] - Reached through: #include "__entry.ftlh" [in template "entry.ftlh" at

    kits
    kits 2008/11/13
    use strict; すると Global symbol "$fooふがふが" requires explicit package name と出た。
  • Perl 5.8.x Unicode関連

    -> 趣旨と注意書き -> UTF8フラグ? -> UTF8フラグとPerlIOレイヤ -> UTF8フラグのついた文字列を記述する -> Wide character in print ... -> Encode -> utf8::* -> use utf8; -> use encoding; -> use UTF8 と use encoding -> JcodeからEncodeへ -> 情報源 <- モドル 趣旨と注意書き Perl 5.8.x のUnicode 関連です。 正直、5.8.x は、ネタでしか使ってなかったので(ぉ、ちゃんといじったことがありませんでした。 使ってみると、よくわかんなくなったので、ちょっとまとめてみました。 今でもあんまりわかってないかもしれないので、内容は無保証です。 突っ込み歓迎。 Jcode、Encodeのメンテナの弾さんから、ご指摘いただいたので、

    kits
    kits 2008/04/09
    www.pure.ne.jp より移転
  • utf8::is_utf8 considered harmful - Bulknews::Subtech - subtech

    はてなグループの終了日を2020年1月31日(金)に決定しました 以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記 このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。 終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。 はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記 ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記 はてなグループ日記のエクスポートデータは2020年2月28

    utf8::is_utf8 considered harmful - Bulknews::Subtech - subtech
  • 2008/02/17 - memo - unknownplace.org

    miyagawaさんが#catalystでいってたことやっと理解できた、きがする。 use Data::Dumper; my $s = "H\x{c3}\x{ab}llo"; utf8::decode($s); warn Dumper $s; # => "H\x{eb}llo" warn utf8::is_utf8($s) # => 1 だけれども my $s = "H\x{eb}llo"; warn utf8::is_utf8($s) # => Warning: something's wrong ということで、"\x{6751}\x{702c}\x{5927}\x{8f14}" などというData::Dumper表記でかならずしも utf-8フラグがたつわけじゃない。ということがいいたかったんだと思うのだけれど、 そもそも ë が latin-1 では "\x{eb}" だけど utf

    kits
    kits 2008/02/18
  • utf8オンな文字列のバイト数の取得方法 - Unknown::Programming

    use utf8している時のlengthは文字数を数えてしまうけど、それ以外のときは、バイト数を数えるそうだ。ところで、以下のようにしたらutf8のバイト数が取れるんじゃないかと思うんだけど、あまりutf8文字列のバイト数に需要がないのか、ググっても例が出てこない。 何か見おとしているのかもしれないな。 use utf8; my $bytes = length unpack('a*',$utf8_str); use utf8での文字列のバイト数 これ、僕も昔取得方法わかんなくて困ったことがある。 ってことで啓蒙活動しとく。 bytes::lengthを使います。 use utf8; require bytes; my $bytes = bytes::length $utf8_str; 「require bytes」が大事ね「require bytes」が。もし「use bytes」しちゃっ

    utf8オンな文字列のバイト数の取得方法 - Unknown::Programming
    kits
    kits 2008/01/27
    require bytes; して bytes::length を使う。requireの代わりに use bytes (); もOK。
  • UTF-8のバックスラッシュは¥ではない (kakitomeru note)

    SMALL MAKEへようこそ。SMALL MAKEの製品のサポートや情報を提供するサイトです。 Welcome to SMALL MAKE. This site provides support and information for SMALL MAKE products.

    kits
    kits 2008/01/22
    ブックマークタイトルの文字化け修正
  • Perl: use utf8 と use encoding と \w - えむもじら

    Perl で UTF8 を処理するのにかれこれ半年ほどはまっています。Perl 5.8.x Unicode関連などを参考にあれこれ試行錯誤しているのですが、結局問題は以下の URL エンコードを行うコードが期待通り動かないということです。 #!/usr/bin/perl -w use strict; use encoding "utf8"; sub url_encode{ my $url=shift; utf8::encode($url); $url =~ s/([^\w\/\.\?:=&#])/sprintf("%%%02X", unpack("C", $1))/eg; return $url; } "あいうえお" を変換させると以下のように変換されます。 �%81%82�%81%84�%81%86�%81%88�%81%8A あれこれやっていて、わかったのは、以下のコードはちゃんと動く

    kits
    kits 2008/01/17
    use encoding "utf8"; を使わなければいいのではないだろうか。(Perl 5.8.x Unicode関連に「encoding プラグマはお手軽だけど副作用が大きい」とある通り)
  • Return 0

    kits
    kits 2007/12/07
    UTF-8のBOMについて
  • perl - 文字列ばらしはsplit //, $strで : 404 Blog Not Found

    2007年11月27日13:30 カテゴリLightweight Languages perl - 文字列ばらしはsplit //, $strで うーん、ここがあきまへん。 [を] 転置インデックスによる検索システムを作ってみよう! 9 my @char = ($c =~ /([\x00-\x7f]|[\xC0-\xDF][\x80-\xBF]| 10 [\xE0-\xEF][\x80-\xBF]{2}| 11 [\xF0-\xF7][\x80-\xBF]{3})/gsx); 文字列をばらして(utf8の)文字一つ一つの配列にするには、バイト列に正規表現をかますのではなく、utf8文字列にしてからそれにsplit //をかますのが一番です。単にわかりやすいだけではなく、その方がずっと高速です。以下、Benchmark。 #!/usr/local/bin/perl use strict; u

    perl - 文字列ばらしはsplit //, $strで : 404 Blog Not Found
    kits
    kits 2007/12/03
    「utf8文字列にしてからそれにsplit //をかます」
  • UTF-8関連ドキュメント - Practice of Programming

    最近、PerlUTF-8関連が話題(宮川さん、Danさん、Yappoさん)だったので。 宮川さんの内容に関しては、UTF-8に限っては、use utf8 で、STDIO、STDOUTは影響しないので、問題ないんじゃないのかなぁとは思いますが。 #!/usr/bin/perl use utf8; print "あいうえお"; であれば、ちゃんと"Wide character in print at ..."が出ます。 逆に、use utf8 で、STDIO、STDOUTで、デコードする場合は、 #!/usr/bin/perl use utf8; use open ":utf8"; use open ":std"; print "あいうえお"; とします。これなら、警告は出ません。 で、題というか、手前味噌ですが、UTF-8については以前書いたのがあるので、よろしければ(メンテしてないんで

    UTF-8関連ドキュメント - Practice of Programming
    kits
    kits 2007/06/28
    「Perl 5.8.x Unicode関連」を書かれた方の記事
  • はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知

    はてなグループの終了日を2020年1月31日(金)に決定しました 以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記 このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。 終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。 はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記 ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記 はてなグループ日記のエクスポートデータは2020年2月28

    はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知
    kits
    kits 2007/05/15
    http://b.hatena.ne.jp/entrylist?mode=rss&url=http://www.welcom.ne.jp/hideaki/hideaki/another.htm で再現可。「ビデオを勝手に」の後にUTF-8として不正なバイト列が入っている様子。
  • どこで混乱しているのかわかりませんが - Charsbar::Note

    Perlが扱うUTF8文字列なファイル名はWindows(あるいはそこで動くアプリケーション/ツール)にとっての「正常な」ファイル名ではありません*1。少なくともPerl以外のアプリケーション/ツールで作った「ファイル.txt」はお互いに開けます*2がPerlでは開けませんし、逆もまたしかりです。 http://asakura.g.hatena.ne.jp/asakura-t/20070511/1178888051 以下、基的に全部CP932環境のWindowsでの話。 1) こういうスクリプトをCP932で書くとWindows環境では「ファイル.txt」と読めるファイルが出来ます。 open my $fh, '>', 'ファイル.txt'; print $fh 'test'; close $fh2) こういう風に書いても同じです。 use utf8; open my $fh, '>',

    どこで混乱しているのかわかりませんが - Charsbar::Note
  • Perlでマルチバイトなファイル名を扱えないというFUD - Charsbar::Note

    UTF8文字列をファイル名として扱った場合にprint等と違ってwarningが出ないのは仕様としては不思議だな、と思いますけれど。 http://asakura.g.hatena.ne.jp/asakura-t/20070511/1178859381 不思議でもなんでもない。CP932環境では文字化けして見えるというだけで、ファイルそのものは正しく扱えていますもの。だから、たとえばWindows上でこんなスクリプトをutf8で書いて実行すると、ファイル名こそ「繝輔ぃ繧、繝ォ.txt」なんてなるけど、ファイルの中にはきちんとhogeという文字列が保存されている。浅倉さんが期待した通りの結果にならないからって、仕様的に間違っていない動作をしているプログラムを責めるのは筋違いだ。 #!/usr/bin/perl use utf8; open my $fh, '>', 'ファイル.txt'; p

    Perlでマルチバイトなファイル名を扱えないというFUD - Charsbar::Note
    kits
    kits 2007/05/11