Presentation is loading. Please wait.

Presentation is loading. Please wait.

文章合成の不自然さの評価と応 用 東海大学 工学研究科情報理工学専攻 ○ 鴨志田芳典 菊池浩明. 研究背景 CAPTCHA ( Completely Automated Public Turing test to tell Computers and Humans Apart )  プログラムによるアカウントの大量取得対策.

Similar presentations


Presentation on theme: "文章合成の不自然さの評価と応 用 東海大学 工学研究科情報理工学専攻 ○ 鴨志田芳典 菊池浩明. 研究背景 CAPTCHA ( Completely Automated Public Turing test to tell Computers and Humans Apart )  プログラムによるアカウントの大量取得対策."— Presentation transcript:

1 文章合成の不自然さの評価と応 用 東海大学 工学研究科情報理工学専攻 ○ 鴨志田芳典 菊池浩明

2 研究背景 CAPTCHA ( Completely Automated Public Turing test to tell Computers and Humans Apart )  プログラムによるアカウントの大量取得対策  問題点:現行の CAPTCHA の脆弱性  高性能 OCR を持つ攻撃に破られている.  低賃金労働者による攻撃 ( リレーアタック )

3 リレーアタック 1. CAPTCHA 問題取 得 6 .アカウント取得 3 . CAPTCHA 問題閲覧 4 .解答送信 正規 Web サイト 低賃金労働者 攻撃者の Web サイト 攻撃プログラム 26714

4 研究目的 1. リレーアタックによる攻撃に強く, 2. OCR 機能を持つマルウェアによる攻撃に強く, 3. 正規アクセスの拒否率が低い. CAPTCHA の提案. 文章の意味を理解する問題を用いる.

5 関連研究  コンセプト  機械翻訳により再翻訳され た語の違和感を利用して, CAPTCHA を行う. 山本匠, J. D. Tygar, 西垣正勝 機械翻訳の違和感を用いた CAPTCHA の提案 山本匠, J. D. Tygar, 西垣正勝:機械翻訳の違和感を用いた CAPTCHA の 提案,情報処理学会研究報告, CSEC-46 No. 37 , 2009 . より図を引 用.

6 提案手法  不自然な文をワードサラダにより合成する.  ワードサラダ:マルコフ連鎖モデルを利用した合 成文章  スパムの大量投稿に利用されている.  ワードサラダの特徴  文法は正しくなる傾向があり,検出が困難.  ある程度以上の語学力が無ければ,判断は難しい  ネイティブが読めば不自然であると判断可能であ る.  関連研究  鴨志田芳典,菊池浩明 マルコフチェインによるワードスパムの合成実験とその評価について つまり自分が、怒りに引き揚げても、 謂わばいいくらいでしたのぞ》を食 べなければ通俗の苦しみ、それは、 子供のは爽快《もっ》のこぶしを感 じるの腰布(しかし、めしを、もじ もじした。

7 提案手法:方法 1. Web からのコーパス収集 2. マルコフ連鎖モデルの作成 3. CAPTCHA による検査  自然な文書 n 個,不自然な文書 m 個からなる s 個の文書を順次提示  解答の方法は「自然」か「不自然」の二択  正解数 k の値が閾値 θ 以上なら CAPTCHA 成功

8 提案手法:概要 問題1:自然な文章 解答1:自然 問題2:不自然な文章 解答2:不自然 問題3:自然な文章 解答3:不自然 問題4:不自然な文章 解答4:不自然 問題5:不自然な文章 問題5:自然 閾値 θ = 4 とした場 合 正解数 k = 3 自然な文書数 n = 2 不自然な文書数 m = 3 全体の問題数 s = 5 正答率 = k/s = 3/5 k<θ なので 判定コンピュータ条件 n, m, s, θ はそれぞれ固定 n, m, s, θ はそれぞれ固定 問題は一題ずつ提示 問題は一題ずつ提示 解答者は n, m, θ の値を 解答者は n, m, θ の値を 知らないものとする.

9 マルコフ連鎖による文章合成のプロセス 単純マルコフ連鎖モデル (N=1) を用いる場合 鴨志田 子犬 が れ。 車 懐か 1/1 た に 轢か 1/2 1/1 1/2 鴨志田が車に轢かれた。 鴨志田が子犬に懐かれた。 入力 ( コーパ ス )

10 ワードサラダの文章合成例 単純マルコフ連鎖( N=1 ) 3階マルコフ連鎖 (N=3) 基本方針を含め、罰金の314年に丸投げした。本人 を受け、 12 月中旬に目先の寄付を記載する二つの辞任 を導入し、まじめに同額の事務所は、実際は 50 %台に 組んだ47千万円の数百万円単位の運営する政治主導 した。 この3億円を含め、新生党と自由党の解党時の残金2 2億円余が、小沢氏関連の3つの政治団体に移されて いたことが、関係者への取材で分かった。鳩山首相は 不起訴だったとはいえ、政治的責任は極めて重大であ る。

11 評価のための実験:主観実験 実験1:日本人による主観実験  目的  ワードサラダの不自然さの評価 実験2:留学生による主観実験  目的  実験1の結果との比較による, 低賃金労働者からの攻撃への耐性の評価

12 実験1:日本人による主観評価  実験 内容  日本人学生 9 名と留学生 3 名に対し評価データを n=50, m=50, s=100 の条件で提示し, コンピュータで合成された文章か否 かを判定させ, 正答率 k/n, k/m と応答時間を計測する. 評価データ  5000 文字程度の政治・経済に関する記事から合成 作文方法件数 ワードサラダ (Order N = 1,…,4) 40 題 センテンスサラダ 10 題 コーパスの一部抜粋 50 題 計 100 題

13 評価:1 判別文書 入力文書 Y=HY=S uman X=Human0.590.41 pam X=Spam0.010.99 Order N=1, n=m の時の条件付確率 P(Y|X)

14 評価:2 CAPTCHA1 問あたりの成功 / 失敗率を以下の同時確率で与え る. これらをまとめて, CAPTCHA 失敗率 P q を以下のように定め る.

15 定義: FRR, FAR, ERR False humans Reject Rate False machines Accept Rate Equal Error Rate

16 閾値 θ についての FRR と FAR (n=5,m=15) CAPTCHA として適切なパラメータ n=5, m=15 の 20 題のとき 正解数 k の閾値 θ=15 で EER は最低値を取る.

17 ワードサラダの割合による 精度の変化 0.02 0.049 0.155 n=5, m=15 の 20 題 正解数 k の閾値 θ=15 この時, FRR 及び FAR は 2%

18 留学生と日本人との精度の差 0.020.58 θ=15 とすることで, 4割以上の リレーアタックを防止可 能

19 実験 3: 日本人による主観実験2  目的 文章量と正答率 k/n, k/m の関係を調査する.  7 名の被験者に対し, 1 行の文からなる評 価データを n=5,m=10,s=15 の条件で順次提 示し,被験者に自然か不自然かを判断さ せ正答率 k/n, k/m と応答時間を計測する.

20 実験3:実験結果 1 文章量による正答率 1行5行増減 自然な文 (n=5) 0.910.59+0.32 ワードサラダ (m=10) 0.730.99-0.27 文章量による応答時間 [ 秒 ](N=1) 1行5行増減 自然な文 (n=5) 8.0521.07-13.2 ワードサラダ (m=10) 6.1913.2-7.01

21 実験3:実験結果 2 表2:文章量による正答率 N=1N=2N=3 自然な文 (n=5) 0.910.800.68 ワードサラダ (m=10) 0.730.620.45 表3:文章量による応答時間 [ 秒 ] N=1N=2N=3 自然な文 (n=5) 8.058.127.44 ワードサラダ (m=10) 6.197.768.58

22 文章量による ERR の比較 必要時間 151.7 秒 θ=15 のとき, FRR=0.043, FAR=0.02 また,最小 EER は 0.031 0.031

23 実験4 文字列変形 CAPTCHA との比較  目的 広く利用されている文字列変形 CAPTCHA との精度と パフォーマンスの違いを調査する. CAPTCHA 公式サイトに提示されている CAPTCHA デ モプログラムを利用し, 2 名に 20 回ずつ CAPTCHA を 行わせ,成功率と必要時間を計測する.

24 FRRFAR 必要時間リレー アタッ ク 提案手法 ( マルコフ ) 2% 307.85 秒 58% 文字列 画像変形 0% 9.74 秒耐性低 従来手法との比較:結果

25 改善案の検討 1. 問題文を短くする 2. より不自然な文を合成するように, ワードサラダを調整する. 2.1 コーパスサイズの拡大 2.2 より適切なコーパスの選択  今後実験予定 2.3 マルコフ連鎖の遷移確率の操作 2.4 ワードサラダの検出手法の応用

26 おわりに  マルコフ連鎖による合成文章を利用した CAPTCHA を提案した.  提案手法は,最適な条件下では,人間拒否率及び機 械受け入れ率 2% の精度と, 308.75 秒のパフォーマ ンスで検査が可能である事を示した.  文章の不自然さの理解を用いた問題は, リレーアタックに耐性を持つ事を示した.  今後の課題  実験 2: 留学生による主観評価の再実験  提案手法の実装実験  より短い文章量で不自然さを確保できる文章合成方法の検 討  n, m, θ を一度の CAPTCHA 毎に可変とした時の評価

27

28

29

30 実験結果:正答率 凡そ 0.2 ポイントの 差 N の増加に従い減少 不自然な文書に対する正答率 k/m 日本人: 0.9875 ±0.04 (N=1) 留学生: 0.81 ±0.12 (N=1) 自然な文書に対する正答率 k/ n 日本人: 0.59±0.19 留学生: ※ 0.50 留学生: ※ 0.50 ※実験を行っていないため,暫定的に最低値とした センテンス

31 実験結果:応答時間 センテンス


Download ppt "文章合成の不自然さの評価と応 用 東海大学 工学研究科情報理工学専攻 ○ 鴨志田芳典 菊池浩明. 研究背景 CAPTCHA ( Completely Automated Public Turing test to tell Computers and Humans Apart )  プログラムによるアカウントの大量取得対策."

Similar presentations


Ads by Google