Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

タグ

utf-8に関するbobbyjam99のブックマーク (3)

  • UTF-8 vs. ISO-10646 : 404 Blog Not Found

    2006年03月11日13:07 カテゴリLightweight Languages一日一行野郎 UTF-8 vs. ISO-10646 これだとLiberalなUTF-8ですね。 [を] UTF-8 の文字にマッチする正規表現 UTF-8の文字にマッチする正規表現の素直版。 新旧、というのか、LiberalなUTF-8とStrictなUTF-8の違いは、RFC2044とRFC2279を見ればはっきりします。要はU+11000より上を認めるかどうかということです。今のところUnicode.orgの定義では、U+0000 - U+10FFFF しか認めていないので、そちらの定義に従うと、むしろこの正規表現はさらに短く $RE_UTF8CHAR_STRICT = qr/(?:[\x00-\x7f]|[\xC0-\xDF][\x80-\xBF]|[\xE0-\xEF][\x80-\xBF]{2}

    UTF-8 vs. ISO-10646 : 404 Blog Not Found
  • UTF-8 の文字にマッチする正規表現

    UTF-8 の文字にマッチする正規表現 2006-03-09-1 [Programming] UTF-8の文字にマッチする正規表現の素直版。 レガシーなのに対応するとき用にメモ。 [\x00-\x7f]|[\xC0-\xDF][\x80-\xBF]|[\xE0-\xEF][\x80-\xBF]{2}|[\xF0-\xF7] [\x80-\xBF]{3}|[\xF8-\xFB][\x80-\xBF]{4}|[\xFC-\xFD][\x80-\xBF]{5} 1234560xxxxxxx 110xxxxx10xxxxxx 1110xxxx10xxxxxx10xxxxxx 11110xxx10xxxxxx10xxxxxx10xxxxxx 111110xx10xxxxxx10xxxxxx10xxxxxx10xxxxxx 1111110x10xxxxxx10xxxxxx10xxxxxx10xxxxx

    UTF-8 の文字にマッチする正規表現
    bobbyjam99
    bobbyjam99 2007/11/29
    "[\x00-\x7f]|[\xC0-\xDF][\x80-\xBF]|[\xE0-\xEF][\x80-\xBF]{2}|[\xF0-\xF7][\x80-\xBF]{3}"
  • Shift_JIS→UTF-8の変換で問題になることがら - レベルエンター山本大のブログ

    現場で、Shift_jis→UTF-8の変換時の懸案事項を調査していた。 以下の「Unicode標準入門」というがとても良い!! Web時代のエンジニアは必携と言っていい。 Unicode標準入門 作者: トニーグラハム,関口正裕,Tony Graham,乾和志,海老塚徹出版社/メーカー: 翔泳社発売日: 2001/05/30メディア: 大型購入: 3人 クリック: 109回この商品を含むブログ (18件) を見る UNICODEについて調べて見ると知らないことばかり。 ・CJK統合漢字(またはCJKV統合漢字) 中国、日韓国の複数の漢字の規格を統合して作ったUnicodeの漢字ブロック群 130,000以上の漢字を27,786の文字コードに統合している ・ユニフィケーション 同じ意味・文字で字形の違う文字に1つのコードを割り当てること CJK統合漢字のブロックだけを考えても、 1

    Shift_JIS→UTF-8の変換で問題になることがら - レベルエンター山本大のブログ
  • 1