ネットエージェント株式会社研究開発部はせがわよすうけ

ネットエージェント株式会社研究開発部はせがわよすうけ hasegawa@utf-8.jp
Webアプリケーションセキュリティネットエージェント株式会社研究開発部はせがわよすうけ

悪用厳禁自身が管理する以外のコンピュータに対して攻撃等の行為を行った場合不正アクセス行為の禁止等に関する法律電子計算機損壊等業務妨害罪
電磁的記録不正作出罪その他の関連法規等に従い罰せられる可能性があります。

自己紹介はせがわようすけネットエージェント株式会社研究開発部
Microsoft MVP for Client Operating System Unicode などの文字コードが引き起こすセキュリティ上の問題点について調査・研究 Internet Explorer、Mozilla Firefox をはじめソフトウェア製品および Webアプリケーションに関する脆弱性を多数発見

Agenda はじめに比較の一致/不一致まとめ UTF-8の冗長なエンコーディング多対一の変換大文字と小文字 Unicodeの正規化
不正なバイト列の埋め込み先行バイトの埋め込みエンコード情報の不一致 7ビット文字コードの解釈まとめ P/1.x 200 OK e: Thu, 11 Jul :37:27 GMT tent-Type: text/html; charset=UTF-8 y: Accept-Encoding tent-Length: 12644

Introduction はじめに

文字コードとセキュリティ何が関係あるの?

レガシーな文字コードからUnicode への移行
文字コードとセキュリティ何が関係あるの? レガシーな文字コードからUnicode への移行 EUC-JPやShift_JISと、Unicodeの混在 Webブラウザはテキストパーサ HTMLやXMLなどのテキストデータを処理視覚的な効果視覚的に似た文字など、攻撃者の強力な道具

文字列の比較検出文字列の比較検出セキュリティのための基本処理「安全な文字列の確認」「危険な文字列の検出」入力検査次の処理へ
text text text text 「安全な文字列の確認」「危険な文字列の検出」

SQL injection 攻撃者エスケープ対象の文字の検出をすり抜けたときにSQLインジェクションが発生 http://
GET /?name='OR'1='1 メタ文字のエスケープ入力値の検証 Webサーバ SELECT * FROM USERS WHERE name=''OR'1'='1' データベース ※バインド機構を使おう!

Cross Site Scripting エスケープ対象の文字の検出をすり抜けたときにXSSが発生誘導 http://
攻撃者 ?item="><script>... GET /?item="><script>... Webサーバメタ文字のエスケープ <input type="text" value=""><script>... 被害者

SQL injection メタ文字のエスケープ入力値の検証攻撃者 Webサーバ http:// バインド機構を使おう! データベース

文字列の比較・検出はセキュリティのための要
文字コードとセキュリティ何が関係あるの? 文字列の比較・検出はセキュリティのための要攻撃者は比較・検出を迂回する方法を編み出している

11110xxx 10xxxxxx 10xxxxxx 10xxxxxx (F0～F7)(80～BF)(80～BF)(80～BF)
UTF-8の冗長なエンコーディング UTF-8とは Unicode文字範囲 UTF-8でのバイト列 U＋0000～U＋007F 0xxxxxxx (00～7F) U＋0080～U＋07FF 110xxxxx 10xxxxxx (C2～DF) (80～BF) U＋0800～U＋FFFF 1110xxxx 10xxxxxx 10xxxxxx (E0～EF) (80～BF) (80～BF) U＋10000～U＋10FFFF 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx (F0～F7)(80～BF)(80～BF)(80～BF)

UTF-8の冗長なエンコーディング UTF-8の非最小形式 / 正しい表現不正な表現 0x2F 0xC0 0xAF
U+002F 0xE0 0x80 0xAF 0xF0 0x80 0x80 0xAF UTF-8の非最小形式伝統的な攻撃手法のひとつ

UTF-8の冗長なエンコーディング IISに対するMS00-057が有名もはや化石のような攻撃手法

ほんとに化石?

UTF-8の冗長なエンコーディング CVE Apache Tomcat UTF-8 Directory Traversal Vulnerability Published: Aug いまでも存在する「生きた化石」

UTF-8の冗長なエンコーディング対策はどうしたらいいの？

多対一の変換 ₩ Unicodeから他の文字コードへの変換は多対一で行われる \ U+005C U+00A5 U+20A9 0x5C

多対一の変換フィルタのすり抜けパストラバーサルなど Unicodeでの文字列の入力 ¥..¥..¥ U+00A5 入力値の検査
他のエンコーディングに変換〵..〵..〵 0x5C パストラバーサルなど次の処理

多対一の変換 "..\" and "..\..\Windows" が C:\tempフォルダに存在
ファイル名をANSIで扱うとパストラバーサル

多対一の変換 DEMO

多対一の変換多数の文字が「多対一」で変換される ¡ ! ¦ | À Á Â Ã Ä Å Æ A U+00A1 0xA5 U+00A6
0x7C À Á Â Ã Ä Å Æ A U+00C0 U+00C1 U+00C2 U+00C3 U+00C4 U+00C5 U+00C6 0x41

多対一の変換対策はどうしたらいいの？文字列をUnicodeの扱い、他のエンコーディングに変換しない
(変換するとしても)検査後には変換しない

大文字と小文字大文字、小文字同一視の定義は、言語や文化によって異なる大文字・小文字を同一視した文字列の比較は実は難しい
独自の基準で比較 Unicodeに従って比較

大文字と小文字大文字と小文字の比較単語一致不一致 Gif / GIF U.S. アメリカ Turkey トルコ Maße/MASSE
Germany ドイツ Maße / Masse Switzerland スイス「Windowsプログラミングの極意」,株式会社アスキー,ISBN ,P.340より

大文字と小文字 Unicodeでは大文字と小文字の対応を規定 A a
0041;LATIN CAPITAL LETTER A;Lu;0;L;;;;;N;;;;0061; 0042;LATIN CAPITAL LETTER B;Lu;0;L;;;;;N;;;;0062; 0043;LATIN CAPITAL LETTER C;Lu;0;L;;;;;N;;;;0063; : 0061;LATIN SMALL LETTER A;Ll;0;L;;;;;N;;;0041;;0041 0062;LATIN SMALL LETTER B;Ll;0;L;;;;;N;;;0042;;0042 0063;LATIN SMALL LETTER C;Ll;0;L;;;;;N;;;0043;;0043 0041 0061 0061 0041

大文字と小文字 Unicodeのバージョンによって大文字小文字の基準が異なることがある Ⴇ თ ? Unicode 2.1.9
U+10A7 U+10D7 U+2D07 Unicode 2.1.9 10A7;GEORGIAN CAPITAL LETTER TAN;Lu;0;L;;;;;N;;Khutsuri;;10D7; 10D7;GEORGIAN LETTER TAN;Ll;0;L;;;;;N;GEORGIAN SMALL LETTER TAN;;;; Unicode 5.0.0 10A7;GEORGIAN CAPITAL LETTER TAN;Lu;0;L;;;;;N;;Khutsuri;;2D07; 2D07;GEORGIAN SMALL LETTER TAN;Ll;0;L;;;;;N;;Khutsuri;10A7;;10A7

大文字と小文字対策はどうしたらいいの？大文字、小文字の差でセキュリティ上の分界点をつくらない
大文字、小文字の比較・変換機能は十分動作を確認・把握する

Unicodeの正規化 Unicodeは文字の分解・合成をサポートがか゛見た目は同じでもバイト列が異なる表現合成済み文字
U+304C U+304B U+3099 合成済み文字基底文字結合文字 Unicodeは文字の分解・合成をサポート見た目は同じでもバイト列が異なる表現

Unicodeの正規化 Unicodeでは4種類の正規化方法を規定正規化した結果からは元のバイト列の復元はできない
NFC Normalization Form Canonical Composition 正規合成 NFD Normalization Form Canonical Decomposition 正規分解 NFKC Normalization Form Compatibility Composition 互換合成 NFKD Normalization Form Compatibility Decomposition 互換分解正規化した結果からは元のバイト列の復元はできない

Unicodeの正規化正規化処理により意味の異なるバイト列に変化する ‥ . . ① 1 NFKC,NFKD U+2025 U+002E

Unicodeの正規化フィルタのすり抜けパストラバーサルなど Unicodeでの文字列の入力〵‥〵‥〵 U+2025 入力値の検査
正規化処理〵..〵..〵 U+002E パストラバーサルなど次の処理

Unicodeの正規化対策はどうしたらいいの？文字列の検査後に正規化処理を行わない

不正なバイト列の埋め込み処理系によっては不正なバイト列が無視されたり、想定外の文字に変換されることがある

不正なバイト列の埋め込み Firefox 2.0.0.12以前のバージョンはShift_JISのときに0x80を無視する
<s[0x80]c[0x80]r[0x80]ipt> alert(1) </s[0x80]c[0x80]r[0x80]ipt>

不正なバイト列の埋め込み IEは0x00を無視する <s[0x00]c[0x00]r[0x00]ipt> alert(1)

不正なバイト列の埋め込み IEは0x0Bと0x0Cを区切り文字とみなす
<script[0x0B]> alert(1) </script> <input type=text value=a[0x0C]onmouseover=alert(1)>

不正なバイト列の埋め込み他にもいろいろある!? 対策はどうしたらいいの？ホワイトリストを用いて安全な文字列のみ生成する。

先行バイトの埋め込みマルチバイト文字の先行バイトを注入することでフィルタを回避

先行バイトの埋め込み name: <input type=text value="[0x82]"> <input type=text value=" onmouseover=...//"> Shift_JISの先行バイトである0x82 でダブルクォートを無効にする (IE / Firefox / Opera)

先行バイトの埋め込み IE8 beta2 の XSS Filter も回避 UTF-8
Shift_JIS EUC-JP IE8 beta2 の XSS Filter も回避

先行バイトの埋め込み対策はどうしたらいいの？文字単位で検証他の文字コードにいったん変換…

エンコード情報の不一致 End-to-End(サーバとクライアント間)でcharsetの解釈が異なる UTF-8 UTF-7
< → < > → > " → " & → & ' → ' <html> < > HTML生成処理エスケープユーザ

エンコード情報の不一致典型的にはUTF-7によるXSSが該当
charsetが不明瞭なとき、IE6/7は UTF-7だと解釈してXSSが発生

エンコード情報の不一致 HTTPヘッダおよび<meta>にて charsetが指定されていない HTTP/1.1 200 OK
Content-Type: text/html ... <html><head> <meta http-equiv="content-type" content="text/html"> </head><body> +ADw-script+AD4- alert(1) +ADw-/script+AD4-...

エンコード情報の不一致 IEが解釈できないcharset名
典型的には CP932 / MS932 / sjis / jis / utf8 ... <meta http-equiv='content-type' content='text/html;charset=CP932'> +ADw-script+AD4- alert(document.cookie); +ADw-/script+AD4-

エンコード情報の不一致本来の<meta>より前に偽の <meta>を注入
<title>+ADw-/title+AD4- +ADw-meta http-equiv+AD0-'content-type' content+AD0-'text/html+ADs-charset+AD0-utf-7'+AD4- </title> <meta http-equiv='content-type' content='text/html;charset=euc-jp'>

エンコード情報の不一致 XSS対策はどうしたらいいの？ charsetをHTTPレスポンスヘッダで明記する
<meta>より前に攻撃者がコントロールできる文字列を置かない

エンコード情報の不一致 UTF-7に関連する問題はIEだけでなく他のブラウザにも影響

エンコード情報の不一致 UTF-7を使ったJSON Hijacking JSON内のデータを操作可能
HTTPレスポンスヘッダにcharsetがない攻撃者がJSONの一部をコントロール可能 JSON内のデータを操作可能

エンコード情報の不一致 JSONはリモートから読み込み可能? XHRで読み込むのでクロスドメインでの読み込みは不可 HTML ユーザ XHR
eval( JSON ) JSON { "name" : "value" } Webサーバ

エンコード情報の不一致 JSONはリモートから読み込み可能? JSからJSON内にはアクセスできないはず… HTML 攻撃者ユーザ
<script src=JSON> 無名オブジェクトが生成される or 構文エラー JSON { "name" : "value" } Webサーバ

エンコード情報の不一致 UTF-7を使ったJSON Hijacking JSON内のデータを操作可能
HTTPレスポンスヘッダにcharsetがない攻撃者がJSONの一部をコントロール可能 JSON内のデータを操作可能

エンコード情報の不一致 JSON Hijacking with UTF-7 これが意味するのは…
[ { "name" : "abc+MPv/fwAiAH0AXQA7-var t+AD0AWwB7ACIAIg-:+ACI-", "mail" : }, "name" : "Matcha Daifuku", "mail" : } ] 攻撃者により挿入 HTTPヘッダにcharsetの指定がない場合これが意味するのは…

エンコード情報の不一致 JSON Hijacking with UTF-7
[ { "name" : "abc"}];var t=[{"":"", "mail" : }, "name" : "Matcha Daifuku", "mail" : } ] HTTPヘッダにcharsetの指定がない場合

エンコード情報の不一致 JSON Hijacking with UTF-7 攻撃者の用意した罠ページ
<script src=" charset="utf-7"></script> <script> alert( t[ 1 ].name + t[ 1 ].mail ); </script> [ { "name" : "abc"}];var t=[{"":"", "mail" : }, "name" : "Matcha Daifuku", "mail" : } ] 外からJSONがUTF-7であると指定。 __defineSetter__が使えない場面でも有効。

エンコード情報の不一致 DEMO

エンコード情報の不一致 JSONハイジャックの対策はどうしたらいいの？ while( 1 ); などをJSONの前に配置
POSTのみ受け入れる

7ビット文字コードの解釈 IEはUS-ASCIIの最上位ビットを無視する " 0010 ｢ 1010 0010 < 0011
2 ｢ 1010 0010 A 2 0x22 0xA2 < 0011 1100 3 C ｼ 1011 1100 B C 0x3C 0xBC > 0011 1110 3 E ｾ 1011 1110 B E 0x3E 0xBE

7ビット文字コードの解釈

7ビット文字コードの解釈 OEもUS-ASCIIの上位バイトを無視する uuencode形式でeicar.comを添付
MIME-Version: 1.0 Content-Type: text/plain; charset=US-ASCII Content-Transfer-Encoding: 7bit This is test mail begin 644 eicar.com ﾍｶ#5/(5`E0$%06S1<4%I8-30H4%XI-T-#*3=]) $5)0T% Y$05)$+4%. ` end uuencode形式でeicar.comを添付

7ビット文字コードの解釈対策はどうしたらいいの？ HTTPレスポンスヘッダでcharsetを明記する
US-ASCIIを避け、ISO や UTF-8などを使う

Conclusion まとめ

まとめ検査後にバイト列の意味を変えるような変換・正規化を行わない End-to-Endで解釈が統一されるようにする
文字コード×セキュリティって未開拓

Questions? Yosuke HASEGAWA hasegawa@netagent.co.jp hasegawa@utf-8.jp

ネットエージェント株式会社研究開発部はせがわよすうけ

Similar presentations

Presentation on theme: "ネットエージェント株式会社研究開発部はせがわよすうけ"— Presentation transcript:

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

ネットエージェント株式会社 研究開発部 はせがわよすうけ

Similar presentations

Presentation on theme: "ネットエージェント株式会社 研究開発部 はせがわよすうけ"— Presentation transcript:

Similar presentations

About project

フィードバック

ネットエージェント株式会社研究開発部はせがわよすうけ

Presentation on theme: "ネットエージェント株式会社研究開発部はせがわよすうけ"— Presentation transcript: