文章合成の不自然さの評価と応 用 東海大学 工学研究科情報理工学専攻 ○ 鴨志田芳典 菊池浩明. 研究背景 CAPTCHA ( Completely Automated Public Turing test to tell Computers and Humans Apart )  プログラムによるアカウントの大量取得対策.

Slides:



Advertisements
Similar presentations
静岡大学情報学研究科 戸根木千洋 ユーザーイメージ収集 インターフェースの開発. 2 目次 背景と目的 研究の構成 研究の詳細 イメージ収集インターフェースの提案 映画イメージ収集システムの開発 システムの評価 今後の課題.
Advertisements

地図の重ね合わせに伴う 位相関係の矛盾訂正手法 萬上 裕 † 阿部光敏* 高倉弘喜 † 上林彌彦 ‡ 京都大学工学研究科 † 京都大学工学部 * 京都大学情報学研究科 ‡
Software Engineering Laboratory, Department of Computer Science, Graduate School of Information Science and Technology, Osaka University 1 ソフトウェア部品推薦のための.
アプリケーションターム ワークショップについての解説 rg-coordinator 12/11. 今回のワークショップのテーマ  アプリケーションにおける個人情報の取り 扱い 利用者やその属性を特定できる「個人情報」 インターネットでは利用者が意図しない個人 情報も利用できる  単に保護し、流さないようにするのではな.
生体情報を利用したオンライン認証システムに関する研 究 情報工学科 大山・山口・小尾研究室 学士課程4年田中 丈登.
自動映像生成のための パーティクルフィルタによるボールの追 跡 2007 年 3 月 21 日 神戸大学大学院自然科学研究科 矢野 一樹.
音声翻訳における機械翻訳・音声合成の 性能評価および分析 ☆橋本佳 ,山岸順一 , William Byrne , Simon King ,徳田恵一 名工大 University of Edinburgh Cambridge University
OWL-Sを用いたWebアプリケーションの検査と生成
大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
エンジニアのためのリテラシー 学生番号順に着席する (クラスa) 1 列 12 人で 前 方
最大エントロピーモデルに基づく形態素解析と辞書による影響
整数計画法を用いたフレーズ対応最適化による翻訳システムの改良
国内線で新千歳空港を利用している航空会社はどこですか?
知識情報演習Ⅲ(後半第1回) 辻 慶太(水)
マルコフ連鎖による合成文章の不自然さを用いたCAPTCHAの安全性評価と改良について
ISDASインターネット分散観測: ワームの平均寿命はいくらか?
文章合成の不自然さを用いたCAPTCHA
プライバシ協調フィルタリングにおける 利用者評価行列の次元削減
神奈川大学大学院工学研究科 電気電子情報工学専攻
4Y-4 印象に残りやすい日本語パスワードの合成法
情報工学科 05A2301 樽美 澄香 (Tarumi Sumika)
状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化
形態素解析および係り受け解析・主語を判別
USB2.0対応PICを用いたデータロガーの製作
固定カメラ映像からの音声情報を 用いた映像コンテンツ生成
動詞の共起パターンを用いた 動作性名詞の述語項構造解析
DNSトラフィックに着目したボット検出手法の検討
Bottom-UpとTop-Down アプローチの統合による 単眼画像からの人体3次元姿勢推定
パケットキャプチャーから感染種類を判定する発見的手法について
確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究
リモートホストの異常を検知するための GPUとの直接通信機構
利用関係に基づく類似度を用いたJavaコンポーネント分類ツールの作成
付属書Ⅰ.5 ハザード分析と 重要管理点 (HACCP).
二重課題による ワーキングメモリの増減  情報システム工学科3年 038 田中 祐史.
確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究
ソースコードの特徴量を用いた機械学習による メソッド抽出リファクタリング推薦手法
東京工業大学 情報理工学研究科 数理・計算科学専攻 千葉研究室 栗田 亮
AIを用いたドローンの 新たな姿勢制御方法に関する研究
音声認識・翻訳 Android アプリケーション制作
Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 清水 洋志.
1-Q-9 SVMとCARTの組み合わせによる AdaBoostを用いた音声区間検出
軽量な仮想マシンを用いたIoT機器の安全な監視
7.一次元ダクトの消音制御系における低コスト化
顔特徴点移動量・点間距離変化量の組み合わせに基づく顔表情認識
Number of random matrices
ウィルスって どの位感染しているのかな? 菊池研究室  小堀智弘.
コードクローン分類の詳細化に基づく 集約パターンの提案と評価
後藤滋樹研究室の紹介 現在のインターネットの課題 敵を知り、己を知れば、百戦危うからず(孫子) 1
SIFTとGraph Cutsを用いた 物体認識及びセグメンテーション
コーディングパターンの あいまい検索の提案と実装
Bottom-UpとTop-Down アプローチの組み合わせによる 単眼画像からの人体3次元姿勢推定
秘匿リストマッチングプロトコルとその応用
ブースティングとキーワードフィルタリング によるシステム要求検出
構造的類似性を持つ半構造化文書における頻度分析
設計情報の再利用を目的とした UML図の自動推薦ツール
保守請負時を対象とした 労力見積のためのメトリクスの提案
売れるためのWEBサイト構築.
R01 マルコフチェインによるワードスパムの生成実験とその評価について
A-17 検索履歴のプライバシーを秘匿した ユーザクラスタリング
クラスタリングを用いた ベイズ学習モデルを動的に更新する ソフトウェア障害検知手法
分散ハニーポット観測からのダウンロードサーバ間の相関ルール抽出
欠陥検出を目的とした類似コード検索法 吉田則裕,石尾隆,松下誠,井上克郎 大阪大学 大学院情報科学研究科
ネット時代のセキュリティ3(暗号化) 2SK 情報機器工学.
Webページタイプによるクラスタ リングを用いた検索支援システム
分散ハニーポット観測からのダウンロードサーバ間の相関ルール抽出
mi-8. 自然言語処理 人工知能を演習で学ぶシリーズ(8)
オブジェクト指向言語における セキュリティ解析アルゴリズムの提案と実現
ベイジアンネットワークと クラスタリング手法を用いたWeb障害検知システムの開発
P2Pによる協調学習システム 唐澤 信介   北海道工業大学 電気工学専攻.
Presentation transcript:

文章合成の不自然さの評価と応 用 東海大学 工学研究科情報理工学専攻 ○ 鴨志田芳典 菊池浩明

研究背景 CAPTCHA ( Completely Automated Public Turing test to tell Computers and Humans Apart )  プログラムによるアカウントの大量取得対策  問題点:現行の CAPTCHA の脆弱性  高性能 OCR を持つ攻撃に破られている.  低賃金労働者による攻撃 ( リレーアタック )

リレーアタック 1. CAPTCHA 問題取 得 6 .アカウント取得 3 . CAPTCHA 問題閲覧 4 .解答送信 正規 Web サイト 低賃金労働者 攻撃者の Web サイト 攻撃プログラム 26714

研究目的 1. リレーアタックによる攻撃に強く, 2. OCR 機能を持つマルウェアによる攻撃に強く, 3. 正規アクセスの拒否率が低い. CAPTCHA の提案. 文章の意味を理解する問題を用いる.

関連研究  コンセプト  機械翻訳により再翻訳され た語の違和感を利用して, CAPTCHA を行う. 山本匠, J. D. Tygar, 西垣正勝 機械翻訳の違和感を用いた CAPTCHA の提案 山本匠, J. D. Tygar, 西垣正勝:機械翻訳の違和感を用いた CAPTCHA の 提案,情報処理学会研究報告, CSEC-46 No. 37 , 2009 . より図を引 用.

提案手法  不自然な文をワードサラダにより合成する.  ワードサラダ:マルコフ連鎖モデルを利用した合 成文章  スパムの大量投稿に利用されている.  ワードサラダの特徴  文法は正しくなる傾向があり,検出が困難.  ある程度以上の語学力が無ければ,判断は難しい  ネイティブが読めば不自然であると判断可能であ る.  関連研究  鴨志田芳典,菊池浩明 マルコフチェインによるワードスパムの合成実験とその評価について つまり自分が、怒りに引き揚げても、 謂わばいいくらいでしたのぞ》を食 べなければ通俗の苦しみ、それは、 子供のは爽快《もっ》のこぶしを感 じるの腰布(しかし、めしを、もじ もじした。

提案手法:方法 1. Web からのコーパス収集 2. マルコフ連鎖モデルの作成 3. CAPTCHA による検査  自然な文書 n 個,不自然な文書 m 個からなる s 個の文書を順次提示  解答の方法は「自然」か「不自然」の二択  正解数 k の値が閾値 θ 以上なら CAPTCHA 成功

提案手法:概要 問題1:自然な文章 解答1:自然 問題2:不自然な文章 解答2:不自然 問題3:自然な文章 解答3:不自然 問題4:不自然な文章 解答4:不自然 問題5:不自然な文章 問題5:自然 閾値 θ = 4 とした場 合 正解数 k = 3 自然な文書数 n = 2 不自然な文書数 m = 3 全体の問題数 s = 5 正答率 = k/s = 3/5 k<θ なので 判定コンピュータ条件 n, m, s, θ はそれぞれ固定 n, m, s, θ はそれぞれ固定 問題は一題ずつ提示 問題は一題ずつ提示 解答者は n, m, θ の値を 解答者は n, m, θ の値を 知らないものとする.

マルコフ連鎖による文章合成のプロセス 単純マルコフ連鎖モデル (N=1) を用いる場合 鴨志田 子犬 が れ。 車 懐か 1/1 た に 轢か 1/2 1/1 1/2 鴨志田が車に轢かれた。 鴨志田が子犬に懐かれた。 入力 ( コーパ ス )

ワードサラダの文章合成例 単純マルコフ連鎖( N=1 ) 3階マルコフ連鎖 (N=3) 基本方針を含め、罰金の314年に丸投げした。本人 を受け、 12 月中旬に目先の寄付を記載する二つの辞任 を導入し、まじめに同額の事務所は、実際は 50 %台に 組んだ47千万円の数百万円単位の運営する政治主導 した。 この3億円を含め、新生党と自由党の解党時の残金2 2億円余が、小沢氏関連の3つの政治団体に移されて いたことが、関係者への取材で分かった。鳩山首相は 不起訴だったとはいえ、政治的責任は極めて重大であ る。

評価のための実験:主観実験 実験1:日本人による主観実験  目的  ワードサラダの不自然さの評価 実験2:留学生による主観実験  目的  実験1の結果との比較による, 低賃金労働者からの攻撃への耐性の評価

実験1:日本人による主観評価  実験 内容  日本人学生 9 名と留学生 3 名に対し評価データを n=50, m=50, s=100 の条件で提示し, コンピュータで合成された文章か否 かを判定させ, 正答率 k/n, k/m と応答時間を計測する. 評価データ  5000 文字程度の政治・経済に関する記事から合成 作文方法件数 ワードサラダ (Order N = 1,…,4) 40 題 センテンスサラダ 10 題 コーパスの一部抜粋 50 題 計 100 題

評価:1 判別文書 入力文書 Y=HY=S uman X=Human pam X=Spam Order N=1, n=m の時の条件付確率 P(Y|X)

評価:2 CAPTCHA1 問あたりの成功 / 失敗率を以下の同時確率で与え る. これらをまとめて, CAPTCHA 失敗率 P q を以下のように定め る.

定義: FRR, FAR, ERR False humans Reject Rate False machines Accept Rate Equal Error Rate

閾値 θ についての FRR と FAR (n=5,m=15) CAPTCHA として適切なパラメータ n=5, m=15 の 20 題のとき 正解数 k の閾値 θ=15 で EER は最低値を取る.

ワードサラダの割合による 精度の変化 n=5, m=15 の 20 題 正解数 k の閾値 θ=15 この時, FRR 及び FAR は 2%

留学生と日本人との精度の差 θ=15 とすることで, 4割以上の リレーアタックを防止可 能

実験 3: 日本人による主観実験2  目的 文章量と正答率 k/n, k/m の関係を調査する.  7 名の被験者に対し, 1 行の文からなる評 価データを n=5,m=10,s=15 の条件で順次提 示し,被験者に自然か不自然かを判断さ せ正答率 k/n, k/m と応答時間を計測する.

実験3:実験結果 1 文章量による正答率 1行5行増減 自然な文 (n=5) ワードサラダ (m=10) 文章量による応答時間 [ 秒 ](N=1) 1行5行増減 自然な文 (n=5) ワードサラダ (m=10)

実験3:実験結果 2 表2:文章量による正答率 N=1N=2N=3 自然な文 (n=5) ワードサラダ (m=10) 表3:文章量による応答時間 [ 秒 ] N=1N=2N=3 自然な文 (n=5) ワードサラダ (m=10)

文章量による ERR の比較 必要時間 秒 θ=15 のとき, FRR=0.043, FAR=0.02 また,最小 EER は

実験4 文字列変形 CAPTCHA との比較  目的 広く利用されている文字列変形 CAPTCHA との精度と パフォーマンスの違いを調査する. CAPTCHA 公式サイトに提示されている CAPTCHA デ モプログラムを利用し, 2 名に 20 回ずつ CAPTCHA を 行わせ,成功率と必要時間を計測する.

FRRFAR 必要時間リレー アタッ ク 提案手法 ( マルコフ ) 2% 秒 58% 文字列 画像変形 0% 9.74 秒耐性低 従来手法との比較:結果

改善案の検討 1. 問題文を短くする 2. より不自然な文を合成するように, ワードサラダを調整する. 2.1 コーパスサイズの拡大 2.2 より適切なコーパスの選択  今後実験予定 2.3 マルコフ連鎖の遷移確率の操作 2.4 ワードサラダの検出手法の応用

おわりに  マルコフ連鎖による合成文章を利用した CAPTCHA を提案した.  提案手法は,最適な条件下では,人間拒否率及び機 械受け入れ率 2% の精度と, 秒のパフォーマ ンスで検査が可能である事を示した.  文章の不自然さの理解を用いた問題は, リレーアタックに耐性を持つ事を示した.  今後の課題  実験 2: 留学生による主観評価の再実験  提案手法の実装実験  より短い文章量で不自然さを確保できる文章合成方法の検 討  n, m, θ を一度の CAPTCHA 毎に可変とした時の評価

実験結果:正答率 凡そ 0.2 ポイントの 差 N の増加に従い減少 不自然な文書に対する正答率 k/m 日本人: ±0.04 (N=1) 留学生: 0.81 ±0.12 (N=1) 自然な文書に対する正答率 k/ n 日本人: 0.59±0.19 留学生: ※ 0.50 留学生: ※ 0.50 ※実験を行っていないため,暫定的に最低値とした センテンス

実験結果:応答時間 センテンス