Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

タグ

文字コードに関するb4takashiのブックマーク (5)

  • MySQLの文字コード事情 2017版

    10. 文字集合文字集合 US-ASCII 数字、英字、32個の記号 JIS X 0201 US-ASCII(「」→「¥」/「~」→「‾」)+カタカ ナ JIS X 0208 数字、ひらがな、カタカナ、漢字、ラテン文字、 ギリシャ文字、記号等々 JIS X 0213 JIS X 0208 + 第三水準/第四水準、ローマ数字、 鼻濁音文字等々 11. 文字集合文字集合 Windows-31J JIS X 0201 + JIS X 0208 + NEC特殊文字 + IBM 拡張文字(「⑧」「Ⅷ」「㈱」「髙」「﨑」「彅」 等) Unicode 世界中の文字。絵文字(「�����������������」「�������������������」等)も含む。

    MySQLの文字コード事情 2017版
    b4takashi
    b4takashi 2017/02/02
    複雑だ…
  • SoftBank iPhoneのShift_JISがすごいことになっている件 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    下図は、SoftBank iPhoneのMailが用いるShift_JISのIBM拡張文字領域*1。どうだ、驚いたろう。 SoftBank iPhoneのMailは、charset=Shift_JISをよく使う。髙村薫の「髙」や宮﨑あおいの「﨑」などのWindows外字もShift_JISで送るし、絵文字もShift_JISで送る。しかし、WindowsのIBM拡張文字領域とSoftBankの絵文字領域は、もともと衝突しており、共存できない。なので、SoftBank iPhoneのShift_JISでは、IBM拡張文字のうち下図ピンク部分が使えない。 だったらその分は、NEC選定IBM拡張文字のほうを使えばいいじゃないですか、どうせダブってるんだから(下図)。というのが、大ざっぱに言えば、SoftBank iPhoneのMailが用いるShift_JISである。 その外字領域をまとめると、

    SoftBank iPhoneのShift_JISがすごいことになっている件 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
    b4takashi
    b4takashi 2012/04/24
    UTF-8を使おう、でFA
  • 文字化けして読めない文書を解読できる「もじばけらった」

    「ここに化けちゃった文字を入れたら、下にある「ばけらったー!」ボタンを押してね。そしたら、なんかいっぱいタブが出てくるから、いろんな組み合わせを試してみてね。見つからなかったら、ごめんなさい。。。」ということで文字化けを解読してデコードするのが「もじばけらった」です。 文字化け解読ツール「もじばけらった」 http://lab.kiki-verb.com/mojibakeratta/ 使い方は簡単、まず文字化けした内容をコピペします 「ばけらったー!」ボタンをクリック 作者のブログによると上部タブが「保存される前の文字コードと思われるもの」、下部タブが「保存された後の文字コードと思われるもの」になっており、とにかくいろんな組み合わせで、片っ端からポチポチすれば、「そこから先は天賦….!神の賽に愛されるか否か….!(カイジ・談)」ということで、なんとかそれっぽく解読できることがあります。 な

    文字化けして読めない文書を解読できる「もじばけらった」
  • はてなブログ | 無料ブログを作成しよう

    キジ焼き丼とおばんざい シンプルな我が家の定番のおばんざいたち 赤梅酢の新生姜漬け 昨夜は香ばしいきじ焼き丼に添えて。大きめにカットした鶏とししとうを魚グリルでこんがり焼く。 タレをつけながら煙モクモク、焼き鳥屋さんみたいな香ばしい香りがキッチンいっぱいに広がります 磯の味も…

    はてなブログ | 無料ブログを作成しよう
    b4takashi
    b4takashi 2010/10/25
    PHPで日本語のファイル名を落とす
  • PHPにおけるUnicode文字列の正規化

    Unicodeでは、意味的に同じ文字を複数の方法で表現することができます。しかし、表現がバラバラなままだと、検索などで問題が発生することは容易に想像できます。そのため、表記を統一する仕組みとして「正規化」が用意されています。稿ではPEARのI18N_UnicodeNormalizerを用いて、PHPでUnicodeの正規化を行う方法を紹介します。 はじめに 与えられた文字列を含む文書を返す検索機能を実装しているところを想像してください。 検索語として「ページ」が与えられれば、「ページ」という文字列を含む文書を返します。これは特に難しいことではありません。 半角の「ページ」が与えられたらどうでしょう。「ページ」と「ページ」を区別する必要がないような、一般的な文書検索においては、「ページ」という文字列を含む文書を返すのが望ましいはずです(もちろん、この2つは常に同一視できるわけではあ

    PHPにおけるUnicode文字列の正規化
    b4takashi
    b4takashi 2010/05/16
    濁点・半濁点の結合文字なんかもこれでなんとかなる、かも。
  • 1