Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

タグ

UTF-8に関するb4takashiのブックマーク (2)

  • PHP で文字列に機種依存文字が含まれているかどうか判定するクラス

    PHP で与えられた文字列に機種依存文字が含まれているかどうか 判別するためのクラスを作ってみました。 msng/PlatformDependentChars · GitHub 使い方はコードの後で。 使い方 require('PlatformDependentChars.php'); などしたら、あとは PlatformDependentChars::check(文字列) で、機種依存文字がなければチェックを通過して true, 含まれていたら false を返します。 与える文字列が内部文字エンコーディングと異なる場合は 第2引数で指定してください。 PlatformDependentChars::check($str, 'EUC-JP') クラス名が長いのを何とかしたい。 やっていること 文字列を別のエンコーディングに変換すると 機種依存文字は正しく変換されないはずなので、 それを確

    PHP で文字列に機種依存文字が含まれているかどうか判定するクラス
  • 開発メモ: UTF-8とUCS-4の変換メモ

    UTF-8とUCS-4の相互変換をC/C++で書いた時のメモ。たぶんまた自分で読むので。 背景 文字のちょっとした正規化などの処理をしたいがiconvやICUなどの巨大なライブラリは使いたくないということがたまにある。嚴密な文字列処理をしたい場合にはそれらのライブラリを使った方が安全だし確実であることは言うまでもないが、ちょっとしたユーティリティを作るのにはちょっとオーバースペックである。 一方で、UTF-8文字列に対してはASCII用正規表現ライブラリを使えば検索や置換などの大抵の操作ができるので、自分でゴリゴリと変換処理を書かなければいけないことはあんまりない。 ただ、たまに自分で書きたくなることもある。ヨーロッパ系言語のアクセント記号を外したり、半角片仮名を全角片仮名にしたり、漢字の異体字表記を常用漢字に統一したりといった処理を一気にやりたい場合とか。そんな場合、各文字が可変長バイト

  • 1