Text
Page: 1
文字化け
とみたまさひろ
bitの会
2015-06-06
文字化け
Powered by Rabbit 2.1.6
Page: 2
自己紹介
とみた まさひろ
長野県北部在住プログラマー
言語: C (1989〜) Ruby (1998〜)
日本MySQLユーザ会代表
長野ソフトウェア技術者グループ(NSEG)
文字化け
Powered by Rabbit 2.1.6
Page: 3
自己紹介
http://tmtms.hatenablog.com
http://twitter.com/tmtms
https://github.com/tmtm
MySQL 3.21 の日本語対応 (1998 )
MySQLのRubyバインディング作成 (1998 )
文字化け
Powered by Rabbit 2.1.6
Page: 4
執筆書籍
文字化け
Powered by Rabbit 2.1.6
Page: 5
自己紹介
もっともRTされたツイート
文字化け
Powered by Rabbit 2.1.6
Page: 6
自己紹介
もっともブクマされたブログ
文字化け
Powered by Rabbit 2.1.6
Page: 7
宣伝その1 NSEG
http://nseg.jp
長野のIT技術者のゆるい集まり
2010年2月発足
(発起人:おびなたさん、しむやさん、おかもとさん)
毎月勉強会開催(今までに63回)主に長野市
「理論から学ぶデータベース実践入門」読書
会(隔週水曜日) at ギークラボ長野
文字化け
Powered by Rabbit 2.1.6
Page: 8
宣伝その2 ギークラボ長野
http://geeklab-nagano.com
県庁近く
無料で利用できる作業スペース
電源 & WiFi & Pepperくん あり
6/13 ハンズオン「はじめての Unity 〜2D
ゲームを作ってみよう〜」
文字化け
Powered by Rabbit 2.1.6
Page: 9
文字化け
文字化け
Powered by Rabbit 2.1.6
Page: 10
文字化けに関するトラブルシューティング
http://www.geocities.co.jp/Playtown/7711/gallaly/trableshooting.html
文字化け
Powered by Rabbit 2.1.6
Page: 11
文字化けを直してみた
残念ながら現バージョンのWindowsでは
文字化けをなおすことは出来ません。
2025年発売予定のWindowsでは対応します。
このトラブルシューティングでは、
このような問題の原因を突き止め、
問題を解決する手順を示します。
質問の答えをクリックしてください。
手順に従って進みながら問題を解決できます。
どうしますか?
□ 仕方がないから「ダイアログで遊ぼう」を閲覧。
□ 「渡部シンイチのDejavu WORLD」を閲覧。
文字化け
Powered by Rabbit 2.1.6
Page: 12
文字化けの原因
1. 文字コードが正しくない
文字化け
Powered by Rabbit 2.1.6
Page: 13
文字コード
Charset, 文字集合
エンコーディング方式
シフトJIS, 日本語EUC, UTF-8 等
文字のバイト表現
文字化け
Powered by Rabbit 2.1.6
Page: 14
日本語の文字コード
UTF-8 (Unicode 今は普通はこれ)
SHIFT_JIS (Windows)
EUC-JP (昔の UNIX)
ISO-2022-JP (メール)
文字化け
Powered by Rabbit 2.1.6
Page: 15
同じ文字でも異なるコード
「あ」
UTF-8 (E3 81 82)
EUC-JP (A4 A2)
SHIFT_JIS (82 A0)
文字化け
Powered by Rabbit 2.1.6
Page: 16
同じバイト列でも別の文字
C2 A9
UTF-8 「©」
EUC-JP 「息」
SHIFT_JIS 「ツゥ」
文字化け
Powered by Rabbit 2.1.6
Page: 17
バイト列だけでは
文字コードはわからない
文字化け
Powered by Rabbit 2.1.6
Page: 18
ところで
日本語文字のことを「2バイト文字」と言ってま
せんか?
UTF-8は日本語はだいたい3バイト
「あ」(E3 81 82)
「ア」(EF BD B1)
文字化け
Powered by Rabbit 2.1.6
Page: 19
文字化けした文字列の
元の文字コードの見分け方
文字化け
Powered by Rabbit 2.1.6
Page: 20
慣れるとパッと見でわかる
文字化け
Powered by Rabbit 2.1.6
Page: 21
EUC-JP を SHIFT_JIS として表示
半角カナが多い
日本語にほんごニホンゴ
ニ?ワク?ヒ、ロ、?エ・ヒ・ロ・?エ
文字化け
Powered by Rabbit 2.1.6
Page: 22
UTF-8 を SHIFT_JIS として表示
画数の多い漢字の中に半角カナが少々混じってる
日本語にほんごニホンゴ
譌・譛ャ隱槭↓縺サ繧薙#繝九?繝ウ繧エ
文字化け
Powered by Rabbit 2.1.6
Page: 23
ISO-2022-JP の ESC 落ち
ASCII文字だけで構成されて「$B」「(B」がある
日本語にほんごニホンゴ
?$BF|K\8l$K$[$s$4%K%[%s%4?(B
文字化け
Powered by Rabbit 2.1.6
Page: 24
文字化けの原因
2. 文字コードが不明
文字化け
Powered by Rabbit 2.1.6
Page: 25
自動判定もできるけど
完全じゃない
文字化け
Powered by Rabbit 2.1.6
Page: 26
同じバイト列でも別の文字(再掲)
C2 A9
UTF-8 「©」
EUC-JP 「息」
SHIFT_JIS 「ツゥ」
文字化け
Powered by Rabbit 2.1.6
Page: 27
自動判定
バイト列が文字コードの正当な範囲にあるか
どうかで判定
文字列が短いと難しい
文字列が長ければ精度は上がる
へんなバイトが混在してたらアウト
日本語じゃないのに日本語と誤判定したり
文字化け
Powered by Rabbit 2.1.6
Page: 28
EUC - Extended Unix Code
EUC-JP : 日本語EUC
EUC-KR : 韓国語EUC
EUC-CN : 簡体字中国語EUC
文字コードの範囲は同じだけど文字が違う
BB FA : 字(JP) / 샙(KR) / 机(CN)
文字化け
Powered by Rabbit 2.1.6
Page: 29
EUC
文字境界
1バイト文字 (00-7F) ← ASCII
2バイト文字 (A1-F4 | A1-FE)
文字列の先頭から見ないとわからない
SHIFT_JIS
1バイト文字 (00-7F A1-DF) ← JISX0201
2バイト文字 (81-9F E0-FC | 40-7E 80-FC)
2バイト目に ASCII 範囲含んでてやばい
文字化け
Powered by Rabbit 2.1.6
Page: 30
文字境界
UTF-8
1バイト文字 (00-7F) ← ASCII
2バイト文字 (C2-DF | 80-BF)
3バイト文字 (E0-EF | 80-BF | 80-BF)
4バイト文字 (F0-F7 | 80-BF | 80-BF | 80-BF)
文字境界判別しやすい
文字化け
Powered by Rabbit 2.1.6
Page: 31
文字化けの原因
3. 機種依存文字
文字化け
Powered by Rabbit 2.1.6
Page: 32
ISO-2022-JP
いわゆる「JISコード」
日本語メールで使われる文字コードは未だ
に ISO-2022-JP が主流
\ と ¥ を使い分けできる
ISO-2022-JP に無い文字
① ② ③ Ⅰ Ⅱ Ⅲ ㈱ ㎏ ㎝ 髙 﨑 カタカナ
文字化け
Powered by Rabbit 2.1.6
Page: 33
ISO-2022-JP に無い文字を
ISO-2022-JP と偽ってメールする
奴がいる
文字化け
Powered by Rabbit 2.1.6
Page: 34
文字化け
文字化け
Powered by Rabbit 2.1.6
Page: 35
昔の Mac だと ① が ㈪ に見えたり
文字化け
Powered by Rabbit 2.1.6
Page: 36
だいたいマイクロソフトが悪い
文字化け
Powered by Rabbit 2.1.6
Page: 37
MS の ISO-2022-JP
CP50221
ISO-2022-JP に無い文字を含む
① ② ③ Ⅰ Ⅱ Ⅲ ㈱ ㎏ ㎝ 髙 﨑 カタカナ
\ と ¥ の区別がつかない
文字化け
Powered by Rabbit 2.1.6
Page: 38
まともなメールアプリが
「ISO-2022-JP」を信じると文字
化け
文字化け
Powered by Rabbit 2.1.6
Page: 39
まともなメールアプリが責められる
「Outlookだと見えるのに」
文字化け
Powered by Rabbit 2.1.6
Page: 40
ISO-2022-JP は CP50221 と
みなして表示
文字化け
Powered by Rabbit 2.1.6
Page: 41
ISO-2022-JP を ISO-2022-JP
として扱うアプリが絶滅
文字化け
Powered by Rabbit 2.1.6
Page: 42
文字コードの置き換え
ISO-2022-JP : CP50221
EUC-JP : CP51932
SHIFT_JIS : CP932
文字化け
Powered by Rabbit 2.1.6
Page: 43
だいたいマイクロソフトが悪い
文字化け
Powered by Rabbit 2.1.6
Page: 44
文字化けの原因
4. フォントが無い
文字化け
Powered by Rabbit 2.1.6
Page: 45
🍣 🍺 🍮 🍢 🍜 🍶
文字化け
Powered by Rabbit 2.1.6
Page: 46
□ □ □ □ □ □
文字化け
Powered by Rabbit 2.1.6
Page: 47
対応フォント入れれば解決
文字化け
Powered by Rabbit 2.1.6
Page: 48
発表の途中ですがお知らせです
文字化け
Powered by Rabbit 2.1.6
Page: 49
FAQ: 下のウサギとカメは何?
文字化け
Powered by Rabbit 2.1.6
Page: 50
Rabbit
Ruby製プレゼンツール
http://rabbit-shocker.org/
ウサギとカメはタイムキーパー
カメに追い抜かされなければ時間内
プレゼンがつまらなくても和む
ソースはテキスト(RD / Markdown)
PDF ビューアとしても利用可
文字化け
Powered by Rabbit 2.1.6
Page: 51
Ruby
文字化け
Powered by Rabbit 2.1.6
Page: 52
Ruby
プログラミング言語
オブジェクト指向スクリプト言語
オブジェクト毎に異なる文字コードが可能
ファイル毎に異なる文字コードが可能
嫌な予感…
文字化け
Powered by Rabbit 2.1.6
Page: 53
ファイル
同じファイルからの読み込みでも異なる文字コード
になることも
f = File.open("何か.txt", "r:utf-8")
f.gets
#=> 1行文字列 UTF-8
f.read(10) #=> 10バイトデータ ASCII-8BIT
文字化け
Powered by Rabbit 2.1.6
Page: 54
異なる文字コード同士
utf8
sjis
utf8
utf8
utf8
= "ほげ"
= "ほげ".encode("cp932")
== sjis
#=> 偽
+ sjis
#=> エラー
=~ /#{sjis}/ #=> エラー
utf8 = "ASCII"
sjis = "ASCII".encode("cp932")
utf8 == sjis
#=> 真
文字化け
Powered by Rabbit 2.1.6
Page: 55
混ぜるな危険!
文字化け
Powered by Rabbit 2.1.6
Page: 56
全部 UTF-8 に統一すれば安全
文字化け
Powered by Rabbit 2.1.6
Page: 57
MySQL
文字化け
Powered by Rabbit 2.1.6
Page: 58
オープンソースの RDBMS
文字化け
Powered by Rabbit 2.1.6
Page: 59
文字コード
クライアントライブラリ
クライアント-サーバー接続
データベース
テーブル
カラム
…毎に設定可能
文字化け
Powered by Rabbit 2.1.6
Page: 60
嫌な予感…
文字化け
Powered by Rabbit 2.1.6
Page: 61
utf8 と utf8mb4
UTF-8 文字コード
utf8 は 3バイトまで
utf8mb4 は 4バイトまで
絵文字(🍣や🍺)は4バイト
文字化け
Powered by Rabbit 2.1.6
Page: 62
utf8カラムに4バイト文字を入れようとすると
接続が utf8 の場合:
mysql> insert into t (c) values ('今日は🍣と🍺');
Query OK, 1 row affected, 1 warning (0.09 sec)
mysql> select * from t;
+-----------+
| c
|
+-----------+
| 今日は
|
+-----------+
文字化け
Powered by Rabbit 2.1.6
Page: 63
utf8カラムに4バイト文字を入れようとすると
接続が utf8mb4 の場合:
mysql> insert into t (c) values ('今日は🍣と🍺');
Query OK, 1 row affected, 1 warning (0.09 sec)
mysql> select * from t;
+----------------+
| c
|
+----------------+
| 今日は?と?
|
+----------------+
文字化け
Powered by Rabbit 2.1.6
Page: 64
utf8mb4カラムに4バイト文字を入れようとすると
接続が utf8mb4 の場合:
mysql> insert into t (c) values ('今日は🍣と🍺');
Query OK, 1 row affected (0.06 sec)
mysql> select * from t;
+----------------------+
| c
|
+----------------------+
| 今日は🍣と🍺
|
+----------------------+
文字化け
Powered by Rabbit 2.1.6
Page: 65
utf8mb4カラムに4バイト文字を入れようとすると
接続が utf8 の場合:
mysql> insert into t (c) values ('今日は🍣と🍺');
Query OK, 1 row affected, 1 warning (0.06 sec)
mysql> select * from t;
+--------------------+
| c
|
+--------------------+
| 今日は????と??
|
+--------------------+
文字化け
Powered by Rabbit 2.1.6
Page: 66
4バイト文字を utf8 接続から取り出すと
mysql> select * from t;
+----------------+
| c
|
+----------------+
| 今日は?と?
|
+----------------+
文字化け
Powered by Rabbit 2.1.6
Page: 67
「?」の調査
mysql> select hex(c) from t;
+------------------------------------------+
| hex(c)
|
+------------------------------------------+
| E4BB8AE697A5E381AFF09F8DA3E381A8F09F8DBA | ←ちゃんと入ってる
| E4BB8AE697A5E381AF3F3F3F3FE381A83F3F
| ←データが「?」
+------------------------------------------+
文字化け
Powered by Rabbit 2.1.6
Page: 68
混ぜるな危険!
文字化け
Powered by Rabbit 2.1.6
Page: 69
全部 utf8 / utf8mb4 に統一すれ
ば安全
文字化け
Powered by Rabbit 2.1.6
Page: 70
まとめ
文字化け
Powered by Rabbit 2.1.6
Page: 71
歴史的経緯により日本語には複数
の文字コードが使用されている
文字化け
Powered by Rabbit 2.1.6
Page: 72
これからは UTF-8 を使えばみんな
ハッピー
文字化け
Powered by Rabbit 2.1.6
Page: 73
本当に?
文字化け
Powered by Rabbit 2.1.6
Page: 74
Unicode の闇
文字化け
Powered by Rabbit 2.1.6
Page: 75
中国語と日本語で文字が統一
文字化け
Powered by Rabbit 2.1.6
Page: 76
合成文字
が (E3 81 8C)
が (E3 81 8B E3 82 99)
「か」 +「゙
」の二文字
比較には正規化が必要
文字化け
Powered by Rabbit 2.1.6
Page: 77
色付き絵文字の肌色問題
絵文字は日本発祥
肌色が一種類
「人種差別だ!」
合成文字で解決
これからの絵文字の実装指針、UTR #51“Unicode Emoji”とはなにか -INTERNET Watch
http://internet.watch.impress.co.jp/docs/special/20150131_686161.html
文字化け
Powered by Rabbit 2.1.6
Page: 78
俺達の戦いはこれからだ!
文字化け
Powered by Rabbit 2.1.6
Page: 79
おわり
文字化け
Powered by Rabbit 2.1.6