Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

タグ

文字コードに関するnyomonyomoのブックマーク (28)

  • 本の虫: ㄘんㄘん

    常の如くGoogleReaderを見ていた所、不思議な文字列が目に入った。曰く、「ㄘんㄘん」と。 ちんちんがどうした。下品なことの好まるるは、世の常ではないか。いまさら目くじらを立てるには及ばぬ、という人もいるだろう。しかし、問題はそこではない。よく見て欲しい。 ㄘんㄘん ちんちん 何と見た目が違うではないか。これは一体どういうことだろう。フォントを変えているのか? しかし、こんなフォントをインストールした覚えはない。WOFF(Web Open Font Format)という、web上でフォントを提供する規格が制定されつつあると聞く、しかし、私はFirefoxを使っていないし、第一、その様な最先端の規格を使っているようにも見えない。あるいは、CSSでウエイトや傾きを変えているのか? そうではない。これは、実は、違う文字なのだ。 ㄘ 'BOPOMOFO LETTER C' (U+3118)

    nyomonyomo
    nyomonyomo 2014/06/02
    台湾で使われてる注音符号を使ってるらしい。「ㄜ」「ㄦ」が使え(?)そうwこれはㄘんㄘんであってちんちんでは無いのです的な使い方?w
  • Loading...

  • jigtwi(ジグツイ) on Twitter: "おはようございます絵文字見えるかな http://jigtwi.jp/ #jigtwi"

    nyomonyomo
    nyomonyomo 2010/05/26
    @jigtwi がtwitterのTLをケータイ絵文字で汚染する計画を立てているのを見た気がした
  • UnicodeとUTF-8の違いは? - Humanity

    という2chのスレがかなり勉強になったのでまとめ。 少しでも有用だと思ったものは載せてあるので結構長いです。 Unicodeのような文字集合(符号化文字集合?)やUTF-8のようなエンコーディング方式に限らず色んな文字コードにまつわる話があります。 たびたび話が繰り替えされますがそれは確認ということで。 (元スレ) 追記:簡単にまとめました。 1 :デフォルトの名無しさん:2007/04/30(月) 20:02:37 ビッグインディアンとかなんとかかんとか 3 :デフォルトの名無しさん:2007/04/30(月) 20:05:48 また、頭の悪そうなスレが・・・ >>1 それは魚とマグロの違いを訊ねるようなもんだ。 4 :デフォルトの名無しさん:2007/04/30(月) 20:06:49 魚と鮪というよりは、魚と刺身の違いのような気がする。 5 :デフォルトの名無しさん:2007/04/

    UnicodeとUTF-8の違いは? - Humanity
    nyomonyomo
    nyomonyomo 2010/04/19
    そうだったのか!>>Microsoft Windows では "Unicode" といえば UTF-16 のリトルエンディアンという暗黙の了解になっている。<<
  • 新常用漢字表が迫るUnicode移行、「シフトJIS」では対応不可能 | 日経 xTECH(クロステック)

    普段使用する漢字の指針となる「常用漢字表」が、2010年度にも改正される。新たに追加される196文字の中に、文字コード「シフトJIS」にない漢字が含まれているため、情報システムに大きな影響を与えそうだ。最新のJIS規格「JIS X 0213:2004」の改正に委員としてかかわった京都大学人文科学研究所附属東アジア人文情報学研究センターの安岡孝一准教授が、問題の核心を解説する。     (日経コンピュータ) 2009年11月10日、文部科学省の「文化審議会国語分科会」において、常用漢字表の改正案が承認された。現行の常用漢字表にある1945字から「銑」「錘」「勺」「匁」「脹」の5字を削除し、新たに196字を追加する改正案で、2010年度の内閣告示を目指している。 新しい常用漢字表が告示されると、「シフトJIS」や「EUC-JP」といった従来からある文字コードを使用するシステムで大きな問題が生じ

    新常用漢字表が迫るUnicode移行、「シフトJIS」では対応不可能 | 日経 xTECH(クロステック)
    nyomonyomo
    nyomonyomo 2009/12/12
    そろそろうちのサーバもEUCJPを捨ててUTF-8あたりへ移行したい
  • Unicode - JISマークは一文字! : 404 Blog Not Found

    2009年08月07日15:00 カテゴリCode Unicode - JISマークは一文字! 私もびっくりしたのですが、事実です。 まずは以下をご覧下さい。 〄は一文字です(U+3004)。 フォントまわりをカスタマイズしていないIEでも表示を確認できました。UbuntuのFirefoxでは空白でしたが。 なぜ気がついたかと言えば、unicode@unicode.org にこんな書き込みが登場したからです。 At http://en.wikipedia.org/wiki/Japanese_Industrial_Standards, a new symbol for JIS is shown and discussed. Will there be a new character in the Standard? (Not a new glyph in the same codepoint

    Unicode - JISマークは一文字! : 404 Blog Not Found
    nyomonyomo
    nyomonyomo 2009/08/09
    〄が(U+3004)で普通に一文字になってる件/自分の環境で表示できてびっくりした
  • http://twitter.com/shi3z/statuses/2826079287

    http://twitter.com/shi3z/statuses/2826079287
    nyomonyomo
    nyomonyomo 2009/07/26
    >>半角カナの裏にかくされた悲しい歴史<<
  • perl - use encoding; #は黒歴史 : 404 Blog Not Found

    2009年06月08日14:30 カテゴリLightweight Languages perl - use encoding; #は黒歴史 ぎゃあぁぁ length関数で文字列の長さを求める - perl初心者BLOG - Hatena::Group::Perl語の文字数を正確に求めたい場合、use encodingを指定する use encoding;は、jperlなど、かつて存在したL10Nされたperl用に書かれたレガシースクリプトを、モダンperlで動かすときのためのおまじないです。こういう目的で利用すべきではありません。 このあたりのことは、以前 404 Blog Not Found:perl - no encoding; # whenever possible でも書いたのですが、大事なことなのでまた書きます。 スクリプトはUTF-8で書き、use utf8;する のがモ

    perl - use encoding; #は黒歴史 : 404 Blog Not Found
  • ファイル名の文字コードを変換するには

    サービス終了のお知らせ いつもYahoo! JAPANのサービスをご利用いただき誠にありがとうございます。 お客様がアクセスされたサービスは日までにサービスを終了いたしました。 今後ともYahoo! JAPANのサービスをご愛顧くださいますよう、よろしくお願いいたします。

    nyomonyomo
    nyomonyomo 2009/05/11
    >>convmv -r -f sjis -t utf8 * --notest<<--notestをつけなければ実際には変換されない
  • 絵文字が開いてしまった「パンドラの箱」第1回--日本の携帯電話キャリアが選んだ道

    Unicodeが携帯電話の絵文字を収録へ 絵文字ってなに?そう聞かれても多くの人は、ああ、それはと答えられるはず。そう言えばちょっと前に『メールのハートマークにだまされるな! 8割の女性は「恋人以外にも使う」』(RBB NAVI)なんていうニュースもありました。携帯電話の個人普及率が9割を上回る(平成20年内閣府消費動向調査)この国において、絵文字はごくありふれたものになっている現実があります。 2008年の11月27日、Googleが携帯電話で使われる絵文字を国際的な文字コード規格、Unicodeに収録しようというプロジェクト進行中であることを発表しました。では、このニュースは何を意味するのでしょう。そして私たちに何をもたらすのでしょう。今回から3回に分けて考えてみようと思います。 まず歴史を振り返ってみましょう。じつは絵文字を使ったのは携帯電話が最初というわけでありません。先行するもの

    絵文字が開いてしまった「パンドラの箱」第1回--日本の携帯電話キャリアが選んだ道
  • 36. UTF-7とクロスサイト・スクリプティング

    UTF-7エンコードの特性を利用したクロスサイト・スクリプティング(UTF-7 XSS)を紹介します。この攻撃はブラウザが出力をUTF-7として認識した場合に生じるものです。日ではUTF-7は一般的ではありません。しかし、プログラマはこういった文字コードとXSSの関係を把握しておくべきでしょう。 まずは、ブラウザが出力をUTF-7と解釈した場合にJavaScriptが実行されてしまうことを確認しましょう。次のコードをUTF-8等の文字コードで保存し、ブラウザから開いて下さい。 <?php mb_internal_encoding('UTF-8'); $str = "<script>alert('XSS');</script>"; $str = mb_convert_encoding($str, 'UTF-7'); header("Content-Type: text/html; char

    36. UTF-7とクロスサイト・スクリプティング
  • これだから世の中にはiso-8859-1しかないと思ってる奴らは... - 川口耕介のブログ

    NetBeansの中の人経由でこれを発見した。 Without default value for source encoding, platform encoding is used, which is bad for build reproducibility. Then setting a default value consistently across every Maven plugin will improve build reproducibility. Proposed default value: ISO-8859-1, which must be supported by every JVM (see java.nio.Charset) and is already the default value for some plugins (the majority of

    これだから世の中にはiso-8859-1しかないと思ってる奴らは... - 川口耕介のブログ
    nyomonyomo
    nyomonyomo 2008/05/01
    ドイツ人のやってるサービスで中身がUTFなのにencodingがiso-8859-1って書いある奴を運営に修正してくれって頼んだらだめって言われたことを思い出した
  • 葉っぱ日記 - レジストリの HKCR¥MIME¥Database¥charset 以下に定義されています。

    UTF-7を利用したXSSは、charset が指定されていない場合に発生すると考えられていますが、少なくとも Internet Explorer においては、これは大きな間違いです。正しくは、Internet Explorer が認識できる charset が指定されていない場合であり、charsetが付加されていても、IEが認識できない文字エンコーディング名である場合にはXSSが発生します。 例えば、次のような HTML は(HTTPレスポンスヘッダで charset が明示されていない場合)IEが文字エンコーディング名を正しく認識できないため、その内容からUTF-7と解釈されるためにスクリプトが動作します。"utf8"という表記はUTF-8の慣用的な表現ではありますが、ハイフンが抜けており正しい表記ではありません。 <html> <head> <meta http-equiv="Co

    葉っぱ日記 - レジストリの HKCR¥MIME¥Database¥charset 以下に定義されています。
  • Unicode Number Entitiy Reference Converter

    左側のフォームに入力した文章を、Unicodeの数値実体参照コードに変換して右側フォームに出力します(半角数字や記号、スペース、改行は変換しません)。翻訳掲示板に書き込みする際に一部文章を翻訳しないで表示させたい場合、複数言語混在文の作成などにご利用下さい。

  • 404 Blog Not Found:ajax - 文字化け判定表

    2007年04月14日01:20 カテゴリLightweight Languages ajax - 文字化け判定表 「誰か」という時にhyukiさんの視線を感じたのは気のせいかしらん。 結城浩のはてな日記 以下のような「文字化け判定表」があるといいなあと思って作り始めましたが、飽きちゃいました(←おい)。誰か作って…。というわけで、そっこーで作ったのが以下。 を で表示 漢字、カタカナ、ひらがなの入ったquery。 これはUTF-8で書かれたテスト 文字化けを解決することは 鯖側のソースはこちら倉側はお使いのブラウザーで「ソースを見て」下さい。 Enjoy! Dan the Man with too Many Mojibake to Fix See Also: 文字化けクイズ(解答編) - 西尾泰和のはてなダイアリー 「Lightweight Languages」カテゴリの最新記事

    404 Blog Not Found:ajax - 文字化け判定表
    nyomonyomo
    nyomonyomo 2007/04/14
    文字化け具合を確認出来る
  • 圧縮の常識、非常識 - @IT

    2007/04/02 圧縮するとデータの保存に必要な容量は減るが速度が犠牲になる――。最近、そんな圧縮の常識を覆される例を2つほど知った。 1つは東京エレクトロンデバイス(TED)が3月12日に発売した米Storewizのストレージデータ圧縮装置の新製品「STN-6000」(参考記事:ストレージ容量を倍増させられる技術とは?)だ。NASの手前に配置し、クライアントPCやサーバからのデータの書き込みや読み出しのデータを圧縮・伸長するアプライアンスだ。NASにストアされるデータ量が減ることは容易に想像ができるが、冒頭に書いた“圧縮の常識”によれば、それによってデータの読み書き速度は若干犠牲になると考えたくなる。しかし、実際には圧縮、伸長のプロセスが入ることによって、むしろ読み書きの速度は向上することがあるという。今やボトルネックとなるのは圧縮のための処理時間ではなく、むしろ物理的なディスクのI

    nyomonyomo
    nyomonyomo 2007/04/03
    データ量は今の時代あまり気にしなくても良いのではないかという記事
  • EUC-UTF8の可能性 : 404 Blog Not Found

    2007年03月18日06:00 カテゴリCodeLightweight Languages EUC-UTF8の可能性 404 Blog Not Found:シフトJISを残すべきか?のコメント欄の、UTFCPのLightConeさんとMatzさんの会話をぼ〜っと眺めているうちに、ひらめきました。 EUCとUTF-8って、マッシュアップできなくね? 鍵は\xFFにあります。このバイト、EUCにもUTF-8にも絶対あらわれないのです。 さすれば、あとはこう定義するだけです。 EUC-UTF8-CHAR = EUC-CHAR | \xFF + UTF-8-CHAR LightConeさん曰く、 UTFCP2の特徴として,日中国の漢字の主要部分が二バイトで現せる 特徴もありますが.他に, 後ろのバイトから正確に一文字づつ逆戻りできるという事があるのを知ってますか. 正確に逆戻り出来るのは,プ

    EUC-UTF8の可能性 : 404 Blog Not Found
    nyomonyomo
    nyomonyomo 2007/03/18
    超SJISじゃなくて超EUCだったらすぐ作れたけどという話?
  • Matzにっき(2007-03-12)「あいうえお」はインド由来

    << 2007/03/ 1 1. [Ruby] Rubyist Magazine - Rubyist Magazine 0018 号 2. ストレートタイプのスマートフォン「NOKIA E61」レポート 3. ITmedia エンタープライズ:TopCoderで世界と渡り合う日IBMの異才 - 夷藤勇人 4. My Sleepless Nights in the Big Apple: Apple、サブノート市場へ再参入へ 5. ITmedia Biz.ID:失敗しないプロジェクトマネジメント -- AppleはてなGoogleに学ぶ3つのヒント 6. 平成19年度「情報大航海プロジェクト(モデルサービスの開発と実証)」に係る委託先の公募について 7. [言語] PyCon 2007 Review 8. [Ruby] deep_science:Re:バザール「オープンソース、そして「R

  • Shift-JISテキストを正しく扱う perl 日本語パターンマッチ正規表現 の問題と落とし穴

    最近の更新履歴 2006-10-28: 「Shift-JISの漢字を含むファイル名/パス名」について若干追記。 2005-03-26: 「最初に」中、XML日語プロファイル第2版に基づき、若干追記。 2005-03-09: 「最初に」中、文章を若干修正。 2003-06-24: Shift-JISの漢字を含むファイル名/パス名 2003-05-31: 「最初に」中、「シフトJIS」などの表記について。 2003-05-24: CP932重複定義文字の変換 2002-08-30: Perl 5.8.0 について。 2002-01-17: 長い文字列に対する正規表現検索 2001-12-15: ShiftJIS::Collate が overrideCJK パラメータを廃止したことに伴う 日語文字列を並び替えるの書き換え。 最初に 日語の文字コードにはいくつかのものが使われています。ある

  • http://openblog.meblog.biz/article/61959.html

    nyomonyomo
    nyomonyomo 2007/03/18
    それでも超SJISは使いたくない。eucが無かった事になってる気が(\とか5Cとか今は関係ないのか)。danさんとかMatzさんとかを素人呼ばわりって一体この人は誰…。