文章合成の不自然さの評価と応 用 東海大学 工学研究科情報理工学専攻 ○ 鴨志田芳典 菊池浩明
研究背景 CAPTCHA ( Completely Automated Public Turing test to tell Computers and Humans Apart ) プログラムによるアカウントの大量取得対策 問題点:現行の CAPTCHA の脆弱性 高性能 OCR を持つ攻撃に破られている. 低賃金労働者による攻撃 ( リレーアタック )
リレーアタック 1. CAPTCHA 問題取 得 6 .アカウント取得 3 . CAPTCHA 問題閲覧 4 .解答送信 正規 Web サイト 低賃金労働者 攻撃者の Web サイト 攻撃プログラム 26714
研究目的 1. リレーアタックによる攻撃に強く, 2. OCR 機能を持つマルウェアによる攻撃に強く, 3. 正規アクセスの拒否率が低い. CAPTCHA の提案. 文章の意味を理解する問題を用いる.
関連研究 コンセプト 機械翻訳により再翻訳され た語の違和感を利用して, CAPTCHA を行う. 山本匠, J. D. Tygar, 西垣正勝 機械翻訳の違和感を用いた CAPTCHA の提案 山本匠, J. D. Tygar, 西垣正勝:機械翻訳の違和感を用いた CAPTCHA の 提案,情報処理学会研究報告, CSEC-46 No. 37 , 2009 . より図を引 用.
提案手法 不自然な文をワードサラダにより合成する. ワードサラダ:マルコフ連鎖モデルを利用した合 成文章 スパムの大量投稿に利用されている. ワードサラダの特徴 文法は正しくなる傾向があり,検出が困難. ある程度以上の語学力が無ければ,判断は難しい ネイティブが読めば不自然であると判断可能であ る. 関連研究 鴨志田芳典,菊池浩明 マルコフチェインによるワードスパムの合成実験とその評価について つまり自分が、怒りに引き揚げても、 謂わばいいくらいでしたのぞ》を食 べなければ通俗の苦しみ、それは、 子供のは爽快《もっ》のこぶしを感 じるの腰布(しかし、めしを、もじ もじした。
提案手法:方法 1. Web からのコーパス収集 2. マルコフ連鎖モデルの作成 3. CAPTCHA による検査 自然な文書 n 個,不自然な文書 m 個からなる s 個の文書を順次提示 解答の方法は「自然」か「不自然」の二択 正解数 k の値が閾値 θ 以上なら CAPTCHA 成功
提案手法:概要 問題1:自然な文章 解答1:自然 問題2:不自然な文章 解答2:不自然 問題3:自然な文章 解答3:不自然 問題4:不自然な文章 解答4:不自然 問題5:不自然な文章 問題5:自然 閾値 θ = 4 とした場 合 正解数 k = 3 自然な文書数 n = 2 不自然な文書数 m = 3 全体の問題数 s = 5 正答率 = k/s = 3/5 k<θ なので 判定コンピュータ条件 n, m, s, θ はそれぞれ固定 n, m, s, θ はそれぞれ固定 問題は一題ずつ提示 問題は一題ずつ提示 解答者は n, m, θ の値を 解答者は n, m, θ の値を 知らないものとする.
マルコフ連鎖による文章合成のプロセス 単純マルコフ連鎖モデル (N=1) を用いる場合 鴨志田 子犬 が れ。 車 懐か 1/1 た に 轢か 1/2 1/1 1/2 鴨志田が車に轢かれた。 鴨志田が子犬に懐かれた。 入力 ( コーパ ス )
ワードサラダの文章合成例 単純マルコフ連鎖( N=1 ) 3階マルコフ連鎖 (N=3) 基本方針を含め、罰金の314年に丸投げした。本人 を受け、 12 月中旬に目先の寄付を記載する二つの辞任 を導入し、まじめに同額の事務所は、実際は 50 %台に 組んだ47千万円の数百万円単位の運営する政治主導 した。 この3億円を含め、新生党と自由党の解党時の残金2 2億円余が、小沢氏関連の3つの政治団体に移されて いたことが、関係者への取材で分かった。鳩山首相は 不起訴だったとはいえ、政治的責任は極めて重大であ る。
評価のための実験:主観実験 実験1:日本人による主観実験 目的 ワードサラダの不自然さの評価 実験2:留学生による主観実験 目的 実験1の結果との比較による, 低賃金労働者からの攻撃への耐性の評価
実験1:日本人による主観評価 実験 内容 日本人学生 9 名と留学生 3 名に対し評価データを n=50, m=50, s=100 の条件で提示し, コンピュータで合成された文章か否 かを判定させ, 正答率 k/n, k/m と応答時間を計測する. 評価データ 5000 文字程度の政治・経済に関する記事から合成 作文方法件数 ワードサラダ (Order N = 1,…,4) 40 題 センテンスサラダ 10 題 コーパスの一部抜粋 50 題 計 100 題
評価:1 判別文書 入力文書 Y=HY=S uman X=Human pam X=Spam Order N=1, n=m の時の条件付確率 P(Y|X)
評価:2 CAPTCHA1 問あたりの成功 / 失敗率を以下の同時確率で与え る. これらをまとめて, CAPTCHA 失敗率 P q を以下のように定め る.
定義: FRR, FAR, ERR False humans Reject Rate False machines Accept Rate Equal Error Rate
閾値 θ についての FRR と FAR (n=5,m=15) CAPTCHA として適切なパラメータ n=5, m=15 の 20 題のとき 正解数 k の閾値 θ=15 で EER は最低値を取る.
ワードサラダの割合による 精度の変化 n=5, m=15 の 20 題 正解数 k の閾値 θ=15 この時, FRR 及び FAR は 2%
留学生と日本人との精度の差 θ=15 とすることで, 4割以上の リレーアタックを防止可 能
実験 3: 日本人による主観実験2 目的 文章量と正答率 k/n, k/m の関係を調査する. 7 名の被験者に対し, 1 行の文からなる評 価データを n=5,m=10,s=15 の条件で順次提 示し,被験者に自然か不自然かを判断さ せ正答率 k/n, k/m と応答時間を計測する.
実験3:実験結果 1 文章量による正答率 1行5行増減 自然な文 (n=5) ワードサラダ (m=10) 文章量による応答時間 [ 秒 ](N=1) 1行5行増減 自然な文 (n=5) ワードサラダ (m=10)
実験3:実験結果 2 表2:文章量による正答率 N=1N=2N=3 自然な文 (n=5) ワードサラダ (m=10) 表3:文章量による応答時間 [ 秒 ] N=1N=2N=3 自然な文 (n=5) ワードサラダ (m=10)
文章量による ERR の比較 必要時間 秒 θ=15 のとき, FRR=0.043, FAR=0.02 また,最小 EER は
実験4 文字列変形 CAPTCHA との比較 目的 広く利用されている文字列変形 CAPTCHA との精度と パフォーマンスの違いを調査する. CAPTCHA 公式サイトに提示されている CAPTCHA デ モプログラムを利用し, 2 名に 20 回ずつ CAPTCHA を 行わせ,成功率と必要時間を計測する.
FRRFAR 必要時間リレー アタッ ク 提案手法 ( マルコフ ) 2% 秒 58% 文字列 画像変形 0% 9.74 秒耐性低 従来手法との比較:結果
改善案の検討 1. 問題文を短くする 2. より不自然な文を合成するように, ワードサラダを調整する. 2.1 コーパスサイズの拡大 2.2 より適切なコーパスの選択 今後実験予定 2.3 マルコフ連鎖の遷移確率の操作 2.4 ワードサラダの検出手法の応用
おわりに マルコフ連鎖による合成文章を利用した CAPTCHA を提案した. 提案手法は,最適な条件下では,人間拒否率及び機 械受け入れ率 2% の精度と, 秒のパフォーマ ンスで検査が可能である事を示した. 文章の不自然さの理解を用いた問題は, リレーアタックに耐性を持つ事を示した. 今後の課題 実験 2: 留学生による主観評価の再実験 提案手法の実装実験 より短い文章量で不自然さを確保できる文章合成方法の検 討 n, m, θ を一度の CAPTCHA 毎に可変とした時の評価
実験結果:正答率 凡そ 0.2 ポイントの 差 N の増加に従い減少 不自然な文書に対する正答率 k/m 日本人: ±0.04 (N=1) 留学生: 0.81 ±0.12 (N=1) 自然な文書に対する正答率 k/ n 日本人: 0.59±0.19 留学生: ※ 0.50 留学生: ※ 0.50 ※実験を行っていないため,暫定的に最低値とした センテンス
実験結果:応答時間 センテンス