タグ

unicodeに関するmainyaaのブックマーク (23)

  • 絵文字の提案について、Unicodeコンソーシアム理事長に聞いてきた👂 - Qiita

    こんばんは、@todokrです。この記事は絵文字 / Emoji Advent Calendar 2016の22日目の記事です エモジニアンと絵文字追加運動 絵文字愛好家のみなさま方におかれましては、「いつかは自分もUnicodeに絵文字追加のプロポーザルを…」という思いをごく自然とお持ちのことと思います。 世間を見渡せば「ハンバーガーやホットドッグの絵文字はあるのになんでタコスはないんだ!」とブチ切れたタコベルがタコス絵文字収録キャンペーンを始めてしまったり、「我々には餃子の絵文字が必要である」プロジェクトがChange.orgに誕生したりなどなど、敬虔なエモジニアンらによる急進的な絵文字追加運動は枚挙にいとまがないようです。 Change.orgの餃子追加プロジェクトの方では「署名の理由」欄に「私は餃子です」と書き残す謎のサンフランシスコ人がいたりなど、異様なテンションの高さが感じられ

    絵文字の提案について、Unicodeコンソーシアム理事長に聞いてきた👂 - Qiita
  • MySQL と寿司ビール問題 - かみぽわーる

    MySQL と Unicode Collation Algorithm (UCA) - かみぽわーる に関連するトピックで、 MySQL には寿司ビール問題というのがある。 寿司ビール問題どっかで詳しくお話を聞くべきだよなぁ。。。— RKajiyama (@RKajiyama) March 18, 2015 これはどういう問題かというと、 MySQL の Unicode では binary collation にしてコードポイントで比較しないと🍣と🍺に限らず絵文字が同値判定されるという問題です。 あれ? MySQL の utf8mb4 charset って、4バイト文字同士を比較すると同じ文字扱いされる? SELECT '🍣'='🍺' → 1 MySQL的には寿司とビールは同じ扱い。— とみたまさひろ (@tmtms) December 22, 2014 MySQLで select

    MySQL と寿司ビール問題 - かみぽわーる
  • 「“バルス”は迷惑?」「大喜利タグって日本独特?」――Twitter本社でいろいろ聞いてきた

    Twitter初のモバイル開発者向けカンファレンス「Twitter Flight」のためサンフランシスコに赴いた記者。せっかくのチャンスなのでTwitter社オフィスを訪問し、現地で働く日人の方に質問をぶつけてきました。 Hello, Twitter Twitter社の社オフィスがあるのはサンフランシスコ市中心部にある1937年建築の重厚なビル。市内の別の場所から2年ほど前に移転してきました。当初は2フロアだったのが、現在はこの大きなビルの5階から11階までを占めるまでに成長し、そもそもビル自体が9階までしかなかったのを増築したそうです。世界中で約3600人いる社員のうち、約1000人がこのオフィスで働いています。 受付を済ませて社内に入るといきなり広大なカフェテリアが! これだけ広くてもお昼時はかなり混み合うとのこと。社内にカフェテリアは4つあって、毎日違うメニューで朝昼晩3提供

    「“バルス”は迷惑?」「大喜利タグって日本独特?」――Twitter本社でいろいろ聞いてきた
  • Unicode の雪だるま - bkブログ

    Unicode の雪だるま Unicode Snowman for You というサイトを知りました。Unicode の雪だるま (U+2603 SNOWMAN ☃) が表示されるだけのサイトです。が、ソースを見ると font-face で EOT 形式のウェブフォントが使われていることに気づきました。 この EOT (Embedded Open Type) 形式のウェブフォントは IE しか対応していないようです。IE で表示するとこのような雪だるまが表示されました。これはおそらく Arial Unicode MS の雪だるまです。ちょっとこわいような。。 一方、他のブラウザで表示すると、このような雪だるまが表示されました。これは私がデフォルトのフォントに設定しているメイリオの雪だるまです。これはかわいい。意外なところにも力が入っています。

  • 「Unicode 6.0」が策定、絵文字が国際標準に

  • 絵文字が開いてしまった「パンドラの箱」第5回--絵文字と日本マンガの親密な関係

    絵文字の収録をめぐって、国際規格で大論争--「Google提案」を振り返る 皆さんこんにちは、面白くてタメになる(?)文字コード漫談の時間がやってまいりました。2月からとびとびで書いてきた絵文字の報告も、いよいよ今回が最終回。どうかよろしくお付き合いください。 さて、前回はどこまでお話ししたのでしたっけ。日絵文字をUnicodeに収録しようとするGoogleAppleによる提案(以下、主導者の名をとりGoogle提案と略)ですが、去年の12月にパブリックレビューが開始されると、Unicode-MLで時ならぬ非難の嵐が吹き荒れたこと。そこでの反発を一言で言い表すなら、日文化に強く依存する絵文字を単純に国際規格に収録しようとした点にあったこと。 なぜなら国際規格の審議は参加各国の総意で成り立っており、特定の国しか便利に使えない文字を収録することは、当然強い反対をうけるからです。さらに

    絵文字が開いてしまった「パンドラの箱」第5回--絵文字と日本マンガの親密な関係
    mainyaa
    mainyaa 2009/08/12
    相変わらず面白すぎる
  • 絵文字が開いてしまった「パンドラの箱」第4回--絵文字が引き起こしたUnicode-MLの“祭り”

    普通では考えられない優遇策--「Google提案」を振り返る 皆さんこんにちは、毎度おなじみ(?)文字コード漫談の時間がやってまいりました。前回が3月の掲載ですから3カ月ぶりですか。今まで3回にわたって絵文字をUnicode及びISO/IEC 10646(国際符号化文字集合)に収録しようという提案の動きについてご説明してきましたが、今回から2回に分けて完結編をお届けします。どうぞよろしくお付き合いください。 ひさしぶりですから、ここまでのポイントを整理しておきましょう。前述した「提案」とは、もともとはUnicodeに収録するためにGoogleAppleと共同で作成したものです。以下、主唱者の名前をとり「Google提案」と呼ぶことにします。これはこの2月に開かれた最高議決機関、UTC会議で承認されてUnicodeコンソーシアムの総意となりました。ついでGoogle提案はISO/IEC 1

    絵文字が開いてしまった「パンドラの箱」第4回--絵文字が引き起こしたUnicode-MLの“祭り”
  • 文字コードのセキュリティ問題はどう対策すべきか: U+00A5を用いたXSSの可能性 - 徳丸浩の日記(2009-03-11)

    _U+00A5を用いたXSSの可能性 前回の日記では、昨年のBlack Hat Japanにおける長谷川陽介氏の講演に「趣味と実益の文字コード攻撃(講演資料)」に刺激される形で、Unicodeの円記号U+00A5によるSQLインジェクションの可能性について指摘した。 はせがわ氏の元資料ではパストラバーサルの可能性を指摘しておられるので、残る脆弱性パターンとしてクロスサイト・スクリプティング(XSS)の可能性があるかどうかがずっと気になっていた。独自の調査により、XSS攻撃の起点となる「<」や「"」、「'」などについて「多対一の変換」がされる文字を探してきたが、現実的なWebアプリケーションで出現しそうな組み合わせは見つけられていない。 一方、U+00A5が処理系によっては0x5C「\」に変換されることに起因してXSSが発生する可能性はある。JavaScriptがからむ場合がそれだ。しかし、

  • 文字コードとセキュリティ

    Loading...

  • UAX #15: Unicode Normalization Forms

    Summary This annex describes normalization forms for Unicode text. When implementations keep strings in a normalized form, they can be assured that equivalent strings have a unique binary representation. This annex also provides examples, additional specifications regarding normalization of Unicode text, and information about conformance testing for Unicode normalization forms. Status This documen

    mainyaa
    mainyaa 2008/10/30
    Unicodeの正規化
  • http://www.nii.ac.jp/CAT-ILL/PUB/font/www/table/

  • perl - 文字参照を(en|de)codeする : 404 Blog Not Found

    2008年05月11日21:00 カテゴリLightweight LanguagesTips perl - 文字参照を(en|de)codeする すでに正解が書かれていますが、 [を] Unicode の16進数の実体参照を正規表現などで元に戻す pack と Encode::decode を使うと良いみたい。 はてなブックマーク - miyagawaのブックマーク / 2008年05月11日 それ HTML::Entities::decode / regexp でも chr(hex($1)) のほうがわかりやすくないかな 繰り返しておくだけの価値はあるので。 HTML::Entitiesを使う まず、HTML::Entitiesのdecode_entities()を使うという方法があります。これがベストプラクティスかな。 #!/usr/local/bin/perl use strict;

    perl - 文字参照を(en|de)codeする : 404 Blog Not Found
  • perl - Encode 中級 : 404 Blog Not Found

    2008年05月08日04:00 カテゴリLightweight Languages perl - Encode 中級 以前書いた 404 Blog Not Found:perl - Encode 入門 は大好評でしたが、 ウェブで利用される文字コード、UnicodeがASCIIを上回る--グーグルが明らかに:マーケティング - CNET Japan UnicodeがASCIIを追い越し、World Wide Web上で最も多く利用されている文字コード体系になったとGoogleのシニアインターナショナルソフトウェアアーキテクトMark Davis氏がブログで述べている。 という時代に完全対応するには、入門以上の知識がちょっと必要になります。 例えば、blogをホストしてくれているlivedoor blogの文字コードはEUC-JP。「時代はUnicode」だと言っても、こうした事情もまだ

    perl - Encode 中級 : 404 Blog Not Found
  • Unicode - 似た文字同士にご用心 : 404 Blog Not Found

    2008年05月02日04:00 カテゴリLightweight Languages Unicode - 似た文字同士にご用心 後者はハイフンでなくてマイナス記号でんがな。 [を] UTF-8 の全角ハイフンが Perl の正規表現にマッチしなくて悩んだ で、元のテキストファイルの全角ハイフンを「od -t x1」 で見てみると「ef bc 8d」と「e2 88 92」の2種類が混じっていました。 前者は「\p{Hyphen}」にマッチするのですが後者はダメ。 まあ原因は分かったので、前処理でバイナリ置換して解決しました。 で、紛らわしそうなのを名前のHYPHENとMINUS SIGNでgrepするとこんな感じになる。 egrep '(HYPHEN|MINUS SIGN)' /usr/local/lib/perl5/5.10.0/unicore/Name.pl -002DHYPHEN-MI

    Unicode - 似た文字同士にご用心 : 404 Blog Not Found
    mainyaa
    mainyaa 2008/05/02
    /usr/local/lib/perl5/5.10.0/unicore/Name.pl
  • http://openmya.hacker.jp/hasegawa/public/20071107/s6/h6.html?file=data.txt

    mainyaa
    mainyaa 2007/11/09
    UTF-7の概要。charasetは記述しろ。ブラウザが解釈できないようなcharasetには注意。
  • README.UNICODEの要約 - Do You PHP はてブロ

    PHP6からネイティブUnicodeサポートが始まるわけですが、実のところ、どういうものなのかよく分からなかったりします;-) で、ソースに付属するREADME.UNICODE(リビジョン1.8)を要約してみました。 README.UNICODE 間違いがあれば指摘をお願いします。 内部はUTF-16 ICUを利用する ICUでサポートされているエンコーディングが利用可能 文字リテラル、HTTPリクエスト、PHP識別子は全てUnicode unicode.semantics = On/OffでUnicodeサポートを切り替える Offの場合、文字リテラルはバイナリ扱い fallback encodingを指定しない場合、UTF-8となる unicode.runtime_encodingでバイナリ文字列変換のエンコーディングを指定 キャスト (binary):バイナリ文字列 (unicode

    README.UNICODEの要約 - Do You PHP はてブロ
    mainyaa
    mainyaa 2007/09/11
    すごくありがたい。
  • 正規化 - odz buffer

    ref:ウノウラボ Unoh Labs: Mac OS X上のUnicode ref:はてなブックマーク - ウノウラボ Unoh Labs: Mac OS X上のUnicode 符号化方式と正規化の問題を激しく混同した解説をどうも。ブックマークコメントをみても正しく問題が伝わっていないように思える。というか、書いた人がきちんと認識してないんじゃないか。 2007年09月04日 omaya omaya 誰が悪いんだろう。 強いて言えば NFD な Unicode の入力に対してまともに動かない Web アプリじゃないかな。 2007年09月04日 mattn mattn macosx, unicode ブラウザのバグだしバージョンで処理しないといけないのかな... ブラウザのバグではない。 しかもややこしいことに、UTF-8で濁点をあらわすコードは「U+309B」(KATAKANA-HIR

    正規化 - odz buffer
    mainyaa
    mainyaa 2007/09/04
    メモ。
  • ҉←「文字の流れを左右逆にする特殊文字」のトリック : 亜細亜ノ蛾 - Weblog

    この文字は何? 2007-08-31T14:53:00+09:00 追記 某ブックマークサイトからお越しの皆様へ。おかげで、色々な情報を知ることができました。ありがとうございます! 下の「種明かし?」に追記しました。何となく種明かしになったのでは、と。まぁ、ムダ知識程度にお楽しみください。トラックバック先に有益な情報があるので、そちらもどうぞ。 ‫‬‭‮‪‫‬‭‮҉ はてなブックマーク経由で、上の不思議な記号のことを知りました。──フォントによっては見えなかったり、?や□になっていると思いますが、実際は「, で丸を描いたような記号」です。 どう不思議かは、下のフォームに文字を入力してみると、すぐわかるかと。この記号を消さないように、何か入力してみてください。 環境によると思いますが、入力した文字の流れが左右反対になります。とくに、日本語入力中でも反対になるのにビックリ(Windows XP

    ҉←「文字の流れを左右逆にする特殊文字」のトリック : 亜細亜ノ蛾 - Weblog
    mainyaa
    mainyaa 2007/08/30
    Explorerのアドレス欄などで「右クリック→Unicode制御文字の挿入→RLO」で入力できるヤツと同じかな?‮Explorerのアドレス欄などで「右クリック→Unicode制御文字の挿入→RLO」で入力できるヤツと同じかな?
  • 「私のために争わないで」文字コードのUTF8さん、自殺 - bogusnews

    文字コード・エンコーディング体系として知られるUnicode UTF8さん(9歳)が11日、都内で自殺していたことがわかった。関係者によれば、このところ周囲で論争や誹謗中傷が絶えないのを苦にふさぎこむことが多かったという。葬儀は故人の遺志により密葬となる予定。 UTF8さんはエリートで有名なUnicode家の末妹。ここ数年、「I18Nでラクできる」「なんかカッコイイ」と勘違いしたプログラマのあいだで採用が進んだことから華やかなセレブ生活を送っていたが、 カネ(特に円)に弱い 波打ちぎわをダッシュすると右左もわからなくなる低脳 天然キャラの演出のつもりか、いつもデカい辞書を抱えていてウザい 実の親ではなく、サロゲート夫婦に産んでもらったらしい 古いワーキングブラウザに冷たい、格差社会の象徴 などの批判や中傷にさらされるようになり、最近は落ち込みがちに。親しかったBOMさんによれば心療内科に通

    「私のために争わないで」文字コードのUTF8さん、自殺 - bogusnews
    mainyaa
    mainyaa 2007/05/14
    すばらしいネタwよくこんなの思いついたなw
  • プログラミング言語における新しいUnicodeの活用法 - Cafe Babe

    東京大学でおこなわれた,Sun Microsystems LaboratoriesのGuy Steeleの"The Fortress Programming Language"という講演を聴いてきた.当日は,著名な先生方が沢山集まっただけでなく,そもそも用意した部屋のキャパの確実に二倍以上集まりすぎて,急遽大教室に変更されるというおまけ付き.ただ,講演内容はアナウンスしたよりも一般的な内容に変更されていた. Fortressは,Guy Steeleが数値計算分野に対して提案する,新しいプログラミング言語である.基的には,C言語に対してJava言語がおこなったと同じような変革を,Fortranに対して行おうとしている.たとえば,小さな言語コア部分に対して,ライブラリを追加して拡張したり,ユーザがパラメタライズドタイプの定義や演算子のオーバーロードを自由におこなえるようにしている.また,グロ

    プログラミング言語における新しいUnicodeの活用法 - Cafe Babe
    mainyaa
    mainyaa 2006/04/30
    へー。直接記述したいと思ったことは何度もあったし、よさそう。