[B! 文字コード] pmakinoのブックマーク

pmakino id:pmakino

文字コードに関するpmakinoのブックマーク (231)

DGL_20220811
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
pmakino 2024/08/12
自治体

システム開発

プレゼンテーション

資料

文字コード
リンク
「住所は英数字もすべて全角で入力してください」はなぜそうなったのか - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? Webサービスのフォームに住所を入力するとき、丁目や番地などを入れる欄について、数字やハイフンを全角で書かなければいけない「全角縛り」をやっているフォームをよく見ます。半角文字を入力してしまってエラーになったり、咄嗟に変換方法を思い出せなかったり、全角と半角の見分けが付きづらかったり、「全角縛り」であることが明示されていなかったり、「ハイフン」としてどの文字を使うべきかわからなかったり……と、鬱陶しさを感じることが多くあります。「住所は全角のみ」（数字やハイフンも絶対に半角を受け付けない）という仕様がどういう経緯で生まれて、どう広まっ
pmakino 2024/08/07
概ね現代には無関係感あるけど、最初の印刷のため説は現代でもあり得なくもないか

文字コード

歴史

システム開発

UI

プログラミング
リンク
「//このコメントを消したら動かない」は大体Shift_JISの2バイト目が原因で発生する - Qiita
TL;DR Shift_JISにしただけでコンパイラが通らなくなる恐ろしい事件とその回避法について。 \ (¥)のASCIIコードは0x5c 表、能は良くない UTF-8は神 2023/12/06追記誤りがあったので訂正します。こんな読まれると思ってなかったので正直ちょっとびっくりしていますが、いろいろコメントありがとうございました。（ツイート等全て拝見しました。） Shift_JISが悪いわけではない（デフォルトのエンコーディング設定の問題）→追記しました UTF-8にはUTF-FSSという仕様でこの問題が回避されている→マジでタメになる知識ありがとうございます OSによってデフォルトのエンコーディング設定が異なるせいで、デフォルト環境での動作がOSにより異なる→なるほど？（調査中） CRLFとLF問題では→なるほど？（調査中）そんな問題何を今更→UTF-8が出てから生まれたからです
pmakino 2023/12/10
文字コード

プログラミング
リンク
バックスラッシュと円記号の歴史と違い
最近知ったんですが、Windowsではキーボードから円記号（¥）の入力はできないらしい。というのもキーボード右上の¥キーキーボード右下の\キーのどちらかを押せば円記号（¥）を入力できますが、どちらを押しても入力されるのは円記号（¥）に偽装されたバックスラッシュ記号（\ ）らしい。皆さんこれ知ってました？いや正直、これを聞いても「何言ってんだコイツ」って思う人が大半だと思いますし、私も今でもそう思います。これは「バックスラッシュと円記号問題」などと言って、Windowsで昔から続く”呪い”のようなものらしいのですがこの”呪い”を理解するには文字コードの歴史を知る必要があります。文字コードとは？その前に、そもそも文字コードってなによ？という根本的な話からすると、文字コードは「パソコンに文字を覚えさせるための暗記表」みたいなものです。パソコンは2進数しか理解できないのであ
pmakino 2023/12/10
文字コード

歴史

Windows

フォント
リンク
文字コード | 衆議院議員河野太郎公式サイト
2023.05.10 官報に使われる「官報文字」というものがあります。そこには渡辺さんの「辺」の異体字が１４０文字も登録されています。日本語の常用漢字には２１３６文字ありますが、そこには邉や邊などは入っていません。そこでＪＩＳの第四水準までを含むJIS X 0213という標準を定め、スマホやパソコンではここまでを標準的に表示できるようにしています。ところが我が国の戸籍で使ってもよいとされている文字はそれを遙かに超えていて、少なくとも５５，２７０文字もあります。全ての国民の氏名をコンピュータで扱えるようになることを目指して、戸籍統一文字や住基ネット用の統一文字を網羅した「文字情報基盤」を２０１１年に策定し、それにあわせたフォントを作成し、無償で提供しています。この「文字情報基盤」（ＭＪ）には、５８，８６２文字が含まれています。しかし、このＭＪを全庁的に採用している自治体は、川口
pmakino 2023/05/11
地獄感がよくわかる

文字コード

自治体

行政

フォント
リンク
資産運用から広島ラーメンまでを網羅する「とほほのＷＷＷ入門」に今度は「Unicode一覧」が追加／「ＷＷＷ」の意味と可能性を広げまくっている超老舗のなんでも入門サイト【やじうまの杜】
pmakino 2022/12/07
資料

文字コード
リンク
GitHub - qntm/base2048: Binary encoding optimised for Twitter
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
pmakino 2022/11/01
「Base2048 is a binary encoding optimised for transmitting data through Twitter」ww

Twitter

ネタ

文字コード
リンク
PDFをコピペするとなぜ“文字化け”が起きてしまうのか　変換テーブル“ToUnicode CMap”が原因だった
NTT Tech Conferenceは、NTTグループのエンジニアたちが一堂に会し、NTTグループ内外のエンジニアたちと技術交流を行うためのカンファレンスです。ここで、細田氏が「PDFのコピペが文字化けするのはなぜか？〜CID/GIDと原ノ味フォント〜」をテーマに話します。まずは文字化けが起こってしまう原因について。原ノ味フォントの作成者細田真道氏（以下、細田）：細田です。ふだんはNTTグループのどこかでDXな仕事をしていますが、今日はぜんぜん仕事とは関係なく、個人的にやっているオープンソースなどの話をしたいと思います。よろしくお願いします。簡単に自己紹介をします。楽譜を作成するプログラム「LilyPond」のコミッターと、GNUの公式文書フォーマット「Texinfo」のコミッターをしています。あとで話しますが、「原ノ味フォント」を作っていて、すごく似たような名前で「原ノ町」という
pmakino 2021/05/27
ずっと不思議だった件

PDF

フォント

文字コード
リンク
[BOD供養寺] スクレイピングしてきたデータの文字コードがおかしかったので修正した - Qiita
Code for Japan Summit の人気企画に、「BADオープンデータ供養寺」というコンテンツがあります。 BADオープンデータ供養寺【セッション概要】世の中のBADオープンデータが二度とこの世を彷徨わないように、「供養（データクレンジング）」する方法を考える場です。データの公開に携わる行政職員の方や、データを利活用するエンジニア・データサイエンティスト等の皆さまと、より使いやすく品質の高いオープンデータの公開と加工の仕組みを考えていくために建立されました。前半はパネリストが、日頃の業務の中で、どのようなBADオープンデータにいかに対処してきたか、実例やクレンジング技術を紹介します。後半では事前投稿されたBADオープンデータを紹介しながら、オーディエンスの皆さまと一緒に成仏させる方法を考えて行きたいと思います。ちょうど最近、総務省が公開しているマイナンバーカードの交付
pmakino 2020/07/19
OpenData

文字コード
リンク
【全角スペース】iOS13で日本語入力時の標準が全角スペースになりエンジニアVSライター戦争勃発 : まとめダネ！
Appleが全角スペースをデフォにすると言って物議を醸しているが Windowsみたいに日本語入力オフ時→sp: 半角スペース日本語入力オン時→sp: 全角スペース / shift+sp: 半角スペースだったら良いのにね 2019.06.28 09:14:45
pmakino 2019/06/29
揉め事

iPad

日本語

文字コード
リンク
ZIP中のファイル名の文字化け - @tmtms のメモ
こんな記事がありました。 gihyo.jp これはMacユーザー用の書籍の宣伝記事らしいのですが、「Windowsを使ってる人のためにMac側がひと手間かけてあげよう」なんて殊勝なことをマカーが言うとは時代も変わったもんです。（[追記] はてブのコメントを見たらさすがマカーという意見が並んでて安心しました）まあ私はWindowsユーザーでもMacユーザーでもないのでどうでもいいのですが、文字化けなネタなので食いついてみます。記事中に、「付物出稿.zip」というファイルを開いた時の画像が載ってます。文字の並びからして、UTF-8文字列をシフトJIS(CP932)とみなして表示してしまった文字列でしょう（「繧ｫ繝上ｙ繝ｼ繝輔か繝ｫ繧ｿ繧･」の元の文字は「カバーフォルダ」で、「蟶ｯ繝輔か繝ｫ繧ｿ繧･」は「帯フォルダ」）。つまり、Macはファイル名をUTF-8でZIPに書き込み、Wi
pmakino 2019/05/29
「2007年にZIPフォーマットは拡張されてファイル名がUTF-8であることを示すフラグが追加されました。ということは、現代においてはZIP作成時にファイル名の文字コードをUTF-8にしてこのフラグを立てれば文字化けはしないは

Mac

Windows

文字コード
リンク
[PDF]新元号名で使用する文字コードについて（周知）（平成３１年４月５日経済産業省事務連絡）
pmakino 2019/04/16
文字コード

資料

政治
リンク
C++標準化委員会、ついに文字とは何かを理解する: char8_t - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? C++ Advent Calendar 2018 この記事はC++ Advent Calendar 2018 15日目の記事です。 14日目: VTKライブラリ 16日目: C++のエラー処理との付き合い方当初見積もりよりも大幅に長い記事となり、投稿したのは12/22で1週間遅刻です。すみません。お知らせ cpprefjpにchar8_t型追加について解説を書きました。ぎゅぎゅっとコンパクトに、また査読を受けて中立的な表現で書いていますので、よければどうぞ。 UTF-8エンコーディングされた文字の型としてchar8_tを追加 - c
pmakino 2018/12/23
文字コード

歴史
リンク
絵文字がある種のUnicodeバグを世界から一掃しつつある件について｜Rui Ueyama
UnicodeのUTF-16エンコーディングではほとんどの文字（コードポイント）は2バイトで表現されるが、Unicodeに後から追加収録された文字の多くは4バイトで表現される。4バイト文字がうまく扱えないプログラムというのはわりとよくある。しかし世界中で広く使われるようになった絵文字がよりによって4バイト文字であるせいで、そのような文字が扱えない問題がよいペースで解決に向かいつつある。それについて少し説明してみようと思う。 Unicodeが80年代から90年代初頭にかけてデザインされたときの目標の一つは、Unicodeに含まれる文字数を65536個以内に収めることだった。現代の文章を実用的なレベルで表すためには、漢字などを含めてもそれだけの種類の文字があれば十分だと考えられたのだ。当然これは1文字を2バイトで表すことを念頭に置いていた。つまりコンピュータの揺籃期から当時に至るまで単純に英語
pmakino 2017/11/13
文字コード
リンク
HTML文書は文字エンコーディングUTF-8でなければなりません - 水底の血
さよならレガシーエンコーディング。文字エンコーディング宣言が存在するかどうかにかかわらず、文書のエンコードに使用される実際の文字エンコーディングはUTF-8でなければならない。 4.2.5.5 文書の文字エンコーディングを指定する - HTML Standard 日本語訳 Require utf-8 when specifying character encoding by sideshowbarker · Pull Request #3091 · whatwg/htmlにより、HTMLで使用できるエンコーディングはUTF-8のみとなりました。これにより、古いHTMLでは許容されていた、Shift_JIS、ISO-2022-JP、EUC-JP、UTF16LEといった文字エンコーディングは適合するHTMLではなくなりました。すでにNu Html CheckerでUTF-8以外の文字エンコー
pmakino 2017/10/09
Web制作

文字コード

HTML
リンク
中国語の文字コード - mizuno_takaakiの日記
百度で仕事をしていると、中国側のスタッフとも頻繁にメールのやりとりが発生します。すると、中国語のメールを受け取ることも多いです（日本語・中国語両方わかるスタッフが、僕にCCして中国語でメールを出す場合など）。ThunderBirdは別に中国語だって表示できるし問題ないのですが、中国語（簡体字）の文字コード（GB2312）の場合は、ちょっと見慣れないフォントになります。Windowsだと「MingLiU」というフォントです。そこまではいいのですが、中国にも日本語ができるスタッフが何人もいて、彼らとメールでやりとりをしていると、そのフォントで、なおかつ日本語で書かれたメールが来るときがあります。時には、中国語と日本語が両方書かれていることもある。UTF-8なのか？と思ったけど、その場合はフォントが変わるし、文字コードを調べてもGB2312になっているのに、日本語が表示されていて、なんでだろう、
pmakino 2016/04/18
一部のOutlookユーザーから送られてくるGB2312でMIMEエンコードされたヘッダがPerlで適切にデコードできない問題の解決策を探してここにたどり着いた。日本でShift_JISとヘッダで名乗っても実際の中身はCP932という話と一緒か。

文字コード

プログラミング

中国
リンク
UnicodeのWAVE DASH例示字形が、25年ぶりに修正された理由　
pmakino 2015/05/11
文字コード
リンク
どんな人々がUnicodeの絵文字に「民族の多様性」を求めているのか？　
pmakino 2014/11/30
文化

文字コード
リンク
文字コードの脆弱性はこの3年間でどの程度対策されたか?
4. デモ1:半端な先行バイトによるXSS • 半端な先行バイトとは – Shift_JIS、EUC-JP、UTF-8などマルチバイト文字の1 バイト目だけが独立して存在する状態 – 次の文字が、マルチバイト文字の2バイト目以降の文字として「食われる」状況になる – input要素などの引用符「”」を食わせて、イベントハンドラを注入する攻撃 Copyright © 2010-2014 HASH Consulting Corp. 4 5. デモ１：PHPソース <?php session_start(); header('Content-Type: text/html; charset=Shift_JIS'); $p1 = @$_GET['p1']; $p2 = @$_GET['p2']; ?> <body> <form> PHP Version:<?php echo htmlspeci
pmakino 2014/03/09
セキュリティ

プレゼンテーション

資料

文字コード

Webアプリケーション
リンク
文字コード変換ミスによる文字化けパターンと想定される原因 - drk7jp
とあるシステムでデータベースから引いてきたデータの表示が文字化けするという不具合がありました。データベース内のデータとしては文字化けしていない状態で格納されていることはわかっていたので、どこかしらの文字変換で化けていることはわかっています。まずはどの誤変換により文字化けするのか原因切り分けのために、decode/encode の組み合わせによる文字化けパターン一覧を作りました。おかげさまでどのパターンに類するものか判別することができ、無事に改修することができました。その話はまた別にするとして、今も昔も変わらず文字化けに悩む人は意外と多いと思います。誤変換結果一覧は原因解析の参考になると思い、記事としてまとめることにしました。文字コード変換ミスによる文字化けパターンを可視化するプログラムと一覧表まずは誤変換を生成する perl スクリプトです。プログラムはとっても簡単で、「文字化けで
pmakino 2014/02/22
文字コード

まとめ

資料

Perl
リンク
1 2 3 4 5 6 7 8 9 10 次のページ