[B! unicode] TAKESAKOのブックマーク

TAKESAKO id:TAKESAKO

unicodeに関するTAKESAKOのブックマーク (56)

ウェブリブログ：サービスは終了しました。
「ウェブリブログ」は 2023年1月31日をもちましてサービス提供を終了いたしました。 2004年3月のサービス開始より19年近くもの間、沢山の皆さまにご愛用いただきましたことを心よりお礼申し上げます。今後とも、BIGLOBEをご愛顧賜りますよう、よろしくお願い申し上げます。 ※引っ越し先ブログへのリダイレクトサービスは2024年1月31日で終了いたしました。 BIGLOBEのサービス一覧
TAKESAKO 2009/12/10
windows

charset

ie

eucjp

unicode
リンク
JIS X 0212 一覧 (UTF-8)
˘ˇ¸˙˝¯˛˚~΄΅¡¦¿ºª©®™¤№ ΆΈΉΊΪΌΎΫΏάέήίϊΐόςύϋΰώ ЂЃЄЅІЇЈЉЊЋЌЎЏђѓєѕіїјљњћќўџ ÆĐĦĲŁĿŊØŒŦÞ æđðħıĳĸłŀŉŋøœßŧþ ÁÀÄÂĂǍĀĄÅÃĆĈČÇĊĎÉÈËÊĚĖĒĘĜĞĢĠĤÍ ÌÏÎǏİĪĮĨĴĶĹĽĻŃŇŅÑÓÒÖÔǑŐŌÕŔŘŖŚŜ ŠŞŤŢÚÙÜÛŬǓŰŪŲŮŨǗǛǙǕŴÝŸŶŹŽŻ áàäâăǎāąåãćĉčçċďéèëêěėēęǵĝğġĥí ìïîǐīįĩĵķĺľļńňņñóòöôǒőōõŕřŗśŝš şťţúùüûŭǔűūųůũǘǜǚǖŵýÿŷźžż 丂丄丅丌丒丟丣两丨丫丮丯丰丵乀乁乄乇乑乚乜乣乨乩乴乵乹乿亍亖亗亝亯亹仃仐仚仛仠仡仢仨仯仱仳仵份仾仿伀伂伃伈伋伌伒伕伖众伙伮伱你伳伵伷伹伻伾佀佂佈佉佋佌佒佔佖佘佟佣佪佬佮佱佷佸佹佺佽佾侁侂侄侅侉侊侌侎侐侒侓侔侗侙侚侞侟侲侷侹侻侼侽侾俀俁俅俆俈
TAKESAKO 2009/11/21
via. http://twitter.com/tree3yama/status/5909107053

unicode
リンク
#perl #regexp - $utf8 =~ /.../i # の傾向と対策 : 404 Blog Not Found
2009年10月01日18:00 カテゴリLightweight Languages書評/画評/品評 #perl #regexp - $utf8 =~ /.../i # の傾向と対策というわけで、その傾向と対策を。 [Perl]UTF8-flagged strings affects regexps with the "i" modifier - use GFx::WebLog; Perlではutf8フラグ付きの文字列に対するuc/lc/"i"正規表現修飾子は非常に遅いのだが，H::F::Liteでは/iを使っているので，試しに/iを使わないようにしてみると，速度が改善した id:gfxの主張は、以下のようにして確かに確かめられる。 use strict; use warnings; use Benchmark qw/cmpthese timethese/; { use bytes; m
TAKESAKO 2009/10/02
perl

dankogai

regexp

unicode
リンク
「UnicodeによるXSSとSQLインジェクションの可能性」プレゼン資料 - ockeghem's blog
だいぶ間があいてしまいましたが、本年1月31日に開催された、第04回まっちゃ４４５勉強会目覚まし勉強会におけるライトニングトークの資料を公開します。 UnicodeによるXSSとSQLインジェクションの可能性View more presentations from ockeghem.
TAKESAKO 2009/09/17
matcha445

security

xss

unicode
リンク
第7回　Unicodeからの多対一の変換［前編］ | gihyo.jp
文字コードが引き起こすセキュリティ上の問題として、もっとも興味深いもののひとつである、Unicodeから他の文字コードへの「多対一の変換」で引き起こされる問題点について、今回と次回で説明します。ご存じのとおり、Unicodeには非常に多数の文字が収録されていますが（現在最新版のUnicode 5.1.0では100,713文字が収録されているそうです⁠）⁠、Unicodeから他の文字コードへの変換においては、互換性や可読性の維持のためか、複数のUnicodeの文字が他の文字コードでは単一の文字に変換されることがあります。この「多対一」の変換が、開発者も想定していなかったような問題を引き起こす原因となることが多々あります。具体的な例として、Windows上でのUnicodeからの変換について説明します。 Windows上でのUnicodeからShift_JISへの変換 Windows上で
TAKESAKO 2009/08/20
なんというページ稼ぎテクニック

xss

charset

encoding

security

unicode
リンク
Unicode - JISマークは一文字! : 404 Blog Not Found
2009年08月07日15:00 カテゴリCode Unicode - JISマークは一文字! 私もびっくりしたのですが、事実です。まずは以下をご覧下さい。〄は一文字です(U+3004)。フォントまわりをカスタマイズしていないIEでも表示を確認できました。UbuntuのFirefoxでは空白でしたが。なぜ気がついたかと言えば、unicode@unicode.org にこんな書き込みが登場したからです。 At http://en.wikipedia.org/wiki/Japanese_Industrial_Standards, a new symbol for JIS is shown and discussed. Will there be a new character in the Standard? (Not a new glyph in the same codepoint
TAKESAKO 2009/08/07
dankogai

apple

unicode

〄
リンク
Variable Byte Code と UTF-8、またはUTF-24が存在しないわけ : 404 Blog Not Found
2009年08月05日00:30 カテゴリLightweight Languages Variable Byte Code と UTF-8、またはUTF-24が存在しないわけ実は、これに非常に良く似た符号化を、我々は日々目にしています。 γ符号、δ符号、ゴロム符号による圧縮効果 - naoyaのはてなダイアリー通常の整数は 32 ビットは 4 バイトの固定長によるバイナリ符号ですが、小さな数字がたくさん出現し、大きな数字はほとんど出現しないという確率分布のもとでは無駄なビットが目立ちます。 UTF-8です。 UTF-8は、0x0から0x10FFFFまでの整数を、以下のようにしてバイト列に変換します。 Range/Offset0123 0x00-0x7F0xxxxxxx 0x80-0x3FF110xxxxx10xxxxxx 0x400-0xFFFF1110xxxx10xxxxxx10xx
TAKESAKO 2009/08/06
algorithm

dankogai

perl

unicode

utf-8
リンク
Black Hat USA 2009 - 葉っぱ日記
tessyさんところで書かれてるとおり、すでにBlack Hat USA 2009の資料が公開されてますね。 Black Hat ® Technical Security Conference: USA 2009 // Archives kenjiaikoさんも書かれてるように、なんか私の名前でてるらしいですヽ(´ー｀)ノ Our Favorite XSS Filters and how to Attack Them これの22ページ目。しかしこれ、フィルタのバイパスだけを目的にXSSの各種パターンだけ徹底的に集めた攻撃的な資料でおもしろいですね。開発側の対策方法とか完全に無視。あと、個人的におもしろそうなのはこれ。 Unraveling Unicode: A Bag of Tricks for Bug Hunting by Chris Weber Unicode Security So
TAKESAKO 2009/08/04
security

unicode
リンク
JavaScript で任意の漢字にマッチする正規表現を書く - kazuhoのメモ置き場
重箱の隅で恐縮ですが。弾さんは (function(e){ e.innerHTML = e.innerHTML.replace( /東京都?([\u3200-\u4DBF\u4E00-\u9FFF\uF900-\uFAFF]+)/g, '首都$1東京' ) })(document.body)漢字を判定する正規表現が工夫のしどころでしょうか。[一-龠]はUnicode時代にはちょっと古い。grep CJK /usr/local/lib/perl5/5.10.0/unicore/Blocks.txtが参考資料代わりです。CJK Unified Ideographだけ欲しければ[\u4E00-\u9FFF]でも行けます。 404 Blog Not Found:javascript+regexp - ていうか首都最強東京bookmarklet とおっしゃってるけど、[\u4E00-\u9FFF]
TAKESAKO 2009/07/23
unicode
リンク
http://www.city.atsugi.kanagawa.jp/helpsite/greeting/index.html
TAKESAKO 2009/07/17
hello

unicode
リンク
絵文字が開いてしまった「パンドラの箱」第4回--絵文字が引き起こしたUnicode-MLの“祭り”
普通では考えられない優遇策--「Google提案」を振り返る皆さんこんにちは、毎度おなじみ（？）文字コード漫談の時間がやってまいりました。前回が3月の掲載ですから3カ月ぶりですか。今まで3回にわたって絵文字をUnicode及びISO/IEC 10646（国際符号化文字集合）に収録しようという提案の動きについてご説明してきましたが、今回から2回に分けて完結編をお届けします。どうぞよろしくお付き合いください。ひさしぶりですから、ここまでのポイントを整理しておきましょう。前述した「提案」とは、もともとはUnicodeに収録するためにGoogleがAppleと共同で作成したものです。以下、主唱者の名前をとり「Google提案」と呼ぶことにします。これはこの2月に開かれた最高議決機関、UTC会議で承認されてUnicodeコンソーシアムの総意となりました。ついでGoogle提案はISO/IEC 1
TAKESAKO 2009/06/05
google

emoji

mobile

unicode

絵文字
リンク
バッチファイルだけで、UnicodeLE や UTF-8 の BOM を除去する。 - Windows Script Programming
UnicodeLE の BOM を除去する。 cmd /u /c type BOMありUnicodeファイル > BOMなしUnicodeファイルこれを利用して、 UTF-8 の BOM を除去する。 utf8-bom.cmd BOMありUTF-8ファイル BOMなしUTF-8ファイル start /min /wait cmd /c chcp.com 65001 ^& cmd /u /c type %1 ^>$$$ ^& cmd /c type $$$ ^>%2 ^& del $$$ こちらは上書き保存も可。さらに、複数のBOMあり/なし不定のUTF-8ファイルをワイルドカードやドロップで、BOMがあれば削除して上書きする。 for-utf8-bom.cmd BOMあり/なしUTF-8ファイル... for %%1 in (%*) do start /min /wait cmd /v:
TAKESAKO 2009/05/18
windows

unicode
リンク
Emoji Symbols: Background Data
Background data for Proposal for Encoding Emoji Symbols L2/09-xxx Date: 2009-Aug-03 Authors: Markus Scherer, Mark Davis, Kat Momoi, Darick Tong (Google Inc.) Yasuo Kida, Peter Edberg (Apple Inc.) The carrier symbol images in this file point to images on other sites. The images are only for comparison and may change. See the chart legend for an explanation of the data presentation in this chart.
TAKESAKO 2009/05/01
#283 ウンチマーク「untimaaku」

unicode

emoji
リンク
第1回　UTF-7によるクロスサイトスクリプティング攻撃［前編］ | gihyo.jp
みなさん、はじめまして。はせがわようすけと申します。最近、文字コードと関連したセキュリティの話題を目にすることが増えてきました。文字コードを利用した攻撃は技術的に未開拓ということもあり、参考となる情報がなかなか見当たりません。この連載では、文字コードを利用した攻撃やそれに対する対策について正しい知識を解説していきます。文字コードとセキュリティが関連するもっとも大きな点は、やはり文字列の比較でしょう。「⁠危険な文字列の検出」「⁠安全な文字列であることの確認」といった文字列の比較は、セキュリティを考えるうえで避けて通れない処理だと思います。文字列の比較においては、単純にバイト列を比較するだけでは不十分で、文字列がメモリ上でどのようなバイト列として格納されているのか（このルールを符号化方式あるいは文字エンコーディングと言います）に注意しなければならないこともあるでしょう。攻撃者は巧みに文字
TAKESAKO 2009/03/24
utf-7

xss

unicode

security
リンク
絵文字が開いてしまった「パンドラの箱」第3回--Unicode提案の限界とメリット
前回までを振り返る--Unicodeコンソーシアムの影響力前回はどこまでお話ししましたっけ。世界中の文字の収録を目的とした文字コード規格、Unicodeは、米国のIT企業を中心に結成されたUnicodeコンソーシアムが制定するデファクト規格に過ぎないこと。しかし公的な国際機関が定めるデジュール規格ISO/IEC 10646と同期することで、WTO/TBT協定にもとづき世界中の国々に普及させられるメリットを得たこと。また、Unicodeコンソーシアム自体はオープンな組織だけれど、意志決定を行うUTC（Unicode Technical Committee/Unicode技術委員会）で一票を投じる権利を持つのは一握りの団体に限られること。そしてUTCはISO/IEC 10646のアメリカ・ナショナルボディであるL2委員会と合同でしか開催されておらず、同時にL2委員会とUnicodeコンソー
TAKESAKO 2009/03/19
>繰り返しますがそれをお求めの向きは、どうか6ページにおすすみください。

mobile

unicode
リンク
文字コードのセキュリティ問題はどう対策すべきか: U+00A5を用いたXSSの可能性 - 徳丸浩の日記(2009-03-11)
_U+00A5を用いたXSSの可能性前回の日記では、昨年のBlack Hat Japanにおける長谷川陽介氏の講演に「趣味と実益の文字コード攻撃(講演資料)」に刺激される形で、Unicodeの円記号U+00A5によるSQLインジェクションの可能性について指摘した。はせがわ氏の元資料ではパストラバーサルの可能性を指摘しておられるので、残る脆弱性パターンとしてクロスサイト・スクリプティング(XSS)の可能性があるかどうかがずっと気になっていた。独自の調査により、XSS攻撃の起点となる「<」や「"」、「'」などについて「多対一の変換」がされる文字を探してきたが、現実的なWebアプリケーションで出現しそうな組み合わせは見つけられていない。一方、U+00A5が処理系によっては0x5C「\」に変換されることに起因してXSSが発生する可能性はある。JavaScriptがからむ場合がそれだ。しかし、
TAKESAKO 2009/03/11
security

perl

unicode

charset

xss
リンク
絵文字が開いてしまった「パンドラの箱」第1回--日本の携帯電話キャリアが選んだ道
Unicodeが携帯電話の絵文字を収録へ絵文字ってなに？そう聞かれても多くの人は、ああ、それはと答えられるはず。そう言えばちょっと前に『メールのハートマークにだまされるな！　8割の女性は「恋人以外にも使う」』（RBB NAVI）なんていうニュースもありました。携帯電話の個人普及率が9割を上回る（平成20年内閣府消費動向調査）この国において、絵文字はごくありふれたものになっている現実があります。 2008年の11月27日、Googleが携帯電話で使われる絵文字を国際的な文字コード規格、Unicodeに収録しようというプロジェクト進行中であることを発表しました。では、このニュースは何を意味するのでしょう。そして私たちに何をもたらすのでしょう。今回から3回に分けて考えてみようと思います。まず歴史を振り返ってみましょう。じつは絵文字を使ったのは携帯電話が最初というわけでありません。先行するもの
TAKESAKO 2009/03/03
mobile

unicode

絵文字

charset
リンク
mb_check_encodingは何をチェックするのか（その3 UTF-8編） - hnwの日記
（2009/10/05追記）「サロゲートペアに相当する3バイト表現も正しいとみなしている」という件はバグとしてPHP5.3.0から修正されているようです。id:moriyoshiさんに超感謝。 PHPのmb_check_encoding関数の調査、おそらく今回が最終回です。今回はUTF-8について調べてみました。 UTF-8 UTF-8というのはUnicodeのエンコーディング形式の一つです。本当にざっくり言ってしまうと、ASCIIが1バイト、ヨーロッパ圏の文字が2バイト、漢字などが3バイトで表現されるようなエンコーディングです。今回は、「UTF-8 - Wikipedia」を参考に、4バイトまでのビットパターンを全数調査しました。5バイト、6バイトも少し実験しました。 1byte : 0xxxxxxx 2byte : 110yyyyx 10xxxxxx 3byte : 1110yyyy
TAKESAKO 2009/02/23
>【1バイトから6バイトまで、上記のビットパターン全てを正しいと判定 * ただし、UTF-8の冗長表現は不正とみなす。】

php

unicode

utf8
リンク
第5回■注目される文字コードのセキュリティ問題
今回から5回にわたって，アプリケーション全体に関する文字コードの問題と対策について説明する。文字コードがセキュリティとどう関わるのか，疑問に思うかもしれないが，Webアプリケーションで文字コードを指定可能な個所は非常に多く，しかも文字コードの選定や処理方法次第ではぜい弱性の原因になることが分かってきている（図1）。実は文字コードはWebアプリケーションのセキュリティ問題の最新の話題と言ってよい。 2008年10月に開催されたセキュリティ・イベントBlack Hat Japan 2008では，ネットエージェントの長谷川陽介氏が「趣味と実益の文字コード攻撃」と題して，文字コード問題の広範なプレゼンテーションを発表した。そのプレゼンテーション資料が発表されているのでこの問題の詳細に関心のある方は参照されたい。ここでは，セキュアなWebアプリケーションを開発するために文字コードの問題をどのよう
TAKESAKO 2009/02/17
charset

encoding

security

unicode
リンク
cmd.exeとchcp.comだけで、文字コード(Unicode、UTF-8、UTF-7、JIS、EUC-JP、SJIS)を変換する！ - Windows Script Programming
cmd.exeとchcp.comだけで、文字コード(Unicode、UTF-8、UTF-7、JIS、EUC-JP、SJIS)を変換する！ Unicode、UTF-8、UTF-7、JIS、EUC-JP、SJISなどの文字コードがcmd.exeとchcp.comだけで変換できます。 Unicode → 各種文字コード UTF-7.cmd Unicodeファイル UTF-7ファイル start /min /wait cmd /c chcp.com 65000 ^& cmd /c type %1 ^>%2 UTF-8.cmd Unicodeファイル UTF-8ファイル start /min /wait cmd /c chcp.com 65001 ^& cmd /c type %1 ^>%2 JIS.cmd Unicodeファイル JISファイル start /min /wait cmd /c ch
TAKESAKO 2008/12/24
ウホッ

windows

unicode

encoding

charset
リンク
1 2 3 次のページ