文章合成の不自然さの評価と応用東海大学工学研究科情報理工学専攻 ○ 鴨志田芳典菊池浩明. 研究背景 CAPTCHA ( Completely Automated Public Turing test to tell Computers and Humans Apart )  プログラムによるアカウントの大量取得対策.

文章合成の不自然さの評価と応用東海大学工学研究科情報理工学専攻 ○ 鴨志田芳典菊池浩明

研究背景 CAPTCHA ( Completely Automated Public Turing test to tell Computers and Humans Apart )  プログラムによるアカウントの大量取得対策  問題点：現行の CAPTCHA の脆弱性  高性能 OCR を持つ攻撃に破られている．  低賃金労働者による攻撃 ( リレーアタック )

リレーアタック１． CAPTCHA 問題取得 6 ．アカウント取得 3 ． CAPTCHA 問題閲覧 4 ．解答送信正規 Web サイト低賃金労働者攻撃者の Web サイト攻撃プログラム 26714

研究目的 1. リレーアタックによる攻撃に強く， 2. OCR 機能を持つマルウェアによる攻撃に強く， 3. 正規アクセスの拒否率が低い． CAPTCHA の提案．文章の意味を理解する問題を用いる．

関連研究  コンセプト  機械翻訳により再翻訳された語の違和感を利用して， CAPTCHA を行う．山本匠， J. D. Tygar, 西垣正勝機械翻訳の違和感を用いた CAPTCHA の提案山本匠， J. D. Tygar, 西垣正勝：機械翻訳の違和感を用いた CAPTCHA の提案，情報処理学会研究報告, CSEC-46 No. 37 ， 2009 ．より図を引用．

提案手法  不自然な文をワードサラダにより合成する．  ワードサラダ：マルコフ連鎖モデルを利用した合成文章  スパムの大量投稿に利用されている．  ワードサラダの特徴  文法は正しくなる傾向があり，検出が困難．  ある程度以上の語学力が無ければ，判断は難しい  ネイティブが読めば不自然であると判断可能である．  関連研究  鴨志田芳典，菊池浩明マルコフチェインによるワードスパムの合成実験とその評価についてつまり自分が、怒りに引き揚げても、謂わばいいくらいでしたのぞ》を食べなければ通俗の苦しみ、それは、子供のは爽快《もっ》のこぶしを感じるの腰布（しかし、めしを、もじもじした。

提案手法：方法 1. Web からのコーパス収集 2. マルコフ連鎖モデルの作成 3. CAPTCHA による検査  自然な文書 n 個，不自然な文書 m 個からなる s 個の文書を順次提示  解答の方法は「自然」か「不自然」の二択  正解数 k の値が閾値 θ 以上なら CAPTCHA 成功

提案手法：概要問題１：自然な文章解答１：自然問題２：不自然な文章解答２：不自然問題３：自然な文章解答３：不自然問題４：不自然な文章解答４：不自然問題５：不自然な文章問題５：自然閾値 θ = 4 とした場合正解数 k = 3 自然な文書数 n = 2 不自然な文書数 m = 3 全体の問題数 s = 5 正答率 = k/s = 3/5 k<θ なので判定コンピュータ条件 n, m, s, θ はそれぞれ固定 n, m, s, θ はそれぞれ固定問題は一題ずつ提示問題は一題ずつ提示解答者は n, m, θ の値を解答者は n, m, θ の値を知らないものとする．

マルコフ連鎖による文章合成のプロセス単純マルコフ連鎖モデル (N=1) を用いる場合鴨志田子犬がれ。車懐か 1/1 たに轢か 1/2 1/1 1/2 鴨志田が車に轢かれた。鴨志田が子犬に懐かれた。入力 ( コーパス )

ワードサラダの文章合成例単純マルコフ連鎖（ N=1 ）３階マルコフ連鎖 (N=3) 基本方針を含め、罰金の３１４年に丸投げした。本人を受け、 12 月中旬に目先の寄付を記載する二つの辞任を導入し、まじめに同額の事務所は、実際は 50 ％台に組んだ４７千万円の数百万円単位の運営する政治主導した。この３億円を含め、新生党と自由党の解党時の残金２２億円余が、小沢氏関連の３つの政治団体に移されていたことが、関係者への取材で分かった。鳩山首相は不起訴だったとはいえ、政治的責任は極めて重大である。

評価のための実験：主観実験実験１：日本人による主観実験  目的  ワードサラダの不自然さの評価実験２：留学生による主観実験  目的  実験１の結果との比較による，低賃金労働者からの攻撃への耐性の評価

実験１：日本人による主観評価  実験内容  日本人学生 9 名と留学生 3 名に対し評価データを n=50, m=50, s=100 の条件で提示し, コンピュータで合成された文章か否かを判定させ, 正答率 k/n, k/m と応答時間を計測する. 評価データ  5000 文字程度の政治・経済に関する記事から合成作文方法件数ワードサラダ (Order N = 1,…,4) 40 題センテンスサラダ 10 題コーパスの一部抜粋 50 題計 100 題

評価：１判別文書入力文書 Y=HY=S uman X=Human0.590.41 pam X=Spam0.010.99 Order N=1, n=m の時の条件付確率 P(Y|X)

評価：２ CAPTCHA1 問あたりの成功 / 失敗率を以下の同時確率で与える．これらをまとめて， CAPTCHA 失敗率 P q を以下のように定める．

定義： FRR, FAR, ERR False humans Reject Rate False machines Accept Rate Equal Error Rate

閾値 θ についての FRR と FAR (n=5,m=15) CAPTCHA として適切なパラメータ n=5, m=15 の 20 題のとき正解数 k の閾値 θ=15 で EER は最低値を取る．

ワードサラダの割合による精度の変化 0.02 0.049 0.155 n=5, m=15 の 20 題正解数 k の閾値 θ=15 この時， FRR 及び FAR は 2%

留学生と日本人との精度の差 0.020.58 θ=15 とすることで，４割以上のリレーアタックを防止可能

実験 3: 日本人による主観実験２  目的文章量と正答率 k/n, k/m の関係を調査する．  7 名の被験者に対し， 1 行の文からなる評価データを n=5,m=10,s=15 の条件で順次提示し，被験者に自然か不自然かを判断させ正答率 k/n, k/m と応答時間を計測する．

実験３：実験結果 1 文章量による正答率１行５行増減自然な文 (n=5) 0.910.59+0.32 ワードサラダ (m=10) 0.730.99-0.27 文章量による応答時間 [ 秒 ](N=1) １行５行増減自然な文 (n=5) 8.0521.07-13.2 ワードサラダ (m=10) 6.1913.2-7.01

実験３：実験結果 2 表２：文章量による正答率 N=1N=2N=3 自然な文 (n=5) 0.910.800.68 ワードサラダ (m=10) 0.730.620.45 表３：文章量による応答時間 [ 秒 ] N=1N=2N=3 自然な文 (n=5) 8.058.127.44 ワードサラダ (m=10) 6.197.768.58

文章量による ERR の比較必要時間 151.7 秒 θ=15 のとき， FRR=0.043, FAR=0.02 また，最小 EER は 0.031 0.031

実験４文字列変形 CAPTCHA との比較  目的広く利用されている文字列変形 CAPTCHA との精度とパフォーマンスの違いを調査する． CAPTCHA 公式サイトに提示されている CAPTCHA デモプログラムを利用し， 2 名に 20 回ずつ CAPTCHA を行わせ，成功率と必要時間を計測する．

FRRFAR 必要時間リレーアタック提案手法 ( マルコフ ) 2% 307.85 秒 58% 文字列画像変形 0% 9.74 秒耐性低従来手法との比較：結果

改善案の検討 1. 問題文を短くする 2. より不自然な文を合成するように，ワードサラダを調整する． 2.1 コーパスサイズの拡大 2.2 より適切なコーパスの選択  今後実験予定 2.3 マルコフ連鎖の遷移確率の操作 2.4 ワードサラダの検出手法の応用

おわりに  マルコフ連鎖による合成文章を利用した CAPTCHA を提案した．  提案手法は，最適な条件下では，人間拒否率及び機械受け入れ率 2% の精度と， 308.75 秒のパフォーマンスで検査が可能である事を示した．  文章の不自然さの理解を用いた問題は，リレーアタックに耐性を持つ事を示した．  今後の課題  実験 2: 留学生による主観評価の再実験  提案手法の実装実験  より短い文章量で不自然さを確保できる文章合成方法の検討  n, m, θ を一度の CAPTCHA 毎に可変とした時の評価

実験結果：正答率凡そ 0.2 ポイントの差 N の増加に従い減少不自然な文書に対する正答率 k/m 日本人： 0.9875 ±0.04 (N=1) 留学生： 0.81 ±0.12 (N=1) 自然な文書に対する正答率 k/ n 日本人： 0.59±0.19 留学生： ※ 0.50 留学生： ※ 0.50 ※実験を行っていないため，暫定的に最低値としたセンテンス

実験結果：応答時間センテンス

文章合成の不自然さの評価と応用東海大学工学研究科情報理工学専攻 ○ 鴨志田芳典菊池浩明. 研究背景 CAPTCHA ( Completely Automated Public Turing test to tell Computers and Humans Apart )  プログラムによるアカウントの大量取得対策.

Similar presentations

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

文章合成の不自然さの評価と応 用 東海大学 工学研究科情報理工学専攻 ○ 鴨志田芳典 菊池浩明. 研究背景 CAPTCHA ( Completely Automated Public Turing test to tell Computers and Humans Apart )  プログラムによるアカウントの大量取得対策.

Similar presentations

Similar presentations

About project

フィードバック

文章合成の不自然さの評価と応用東海大学工学研究科情報理工学専攻 ○ 鴨志田芳典菊池浩明. 研究背景 CAPTCHA ( Completely Automated Public Turing test to tell Computers and Humans Apart )  プログラムによるアカウントの大量取得対策.