R01 マルコフチェインによるワードスパムの生成実験とその評価について

Slides:



Advertisements
Similar presentations
言語情報を利用したテキストマイニ ング 奈良先端科学技術大学院大学 情報科学研究科 工藤 拓 山本 薫 坪井 裕太 松本 裕治.
Advertisements

5 章 標本と統計量の分布 湯浅 直弘. 5-1 母集団と標本 ■ 母集合 今までは確率的なこと これからは,確率や割合がわかっていないとき に, 推定することが目標. 個体:実験や観測を行う 1 つの対象 母集団:個体全部の集合  ・有限な場合:有限母集合 → 1つの箱に入っているねじ.  ・無限な場合:無限母集合.
文章合成の不自然さの評価と応 用 東海大学 工学研究科情報理工学専攻 ○ 鴨志田芳典 菊池浩明. 研究背景 CAPTCHA ( Completely Automated Public Turing test to tell Computers and Humans Apart )  プログラムによるアカウントの大量取得対策.
コーパス言語学実践 2006 年度 2 学期 第 2 回. 2 本日の内容 前半の作業について – 語彙調査の演習 – 用語の説明 語彙,単位語,延べ語,異なり語,見出し 語 作成作業 その1 – データ収集開始.
電子書籍の検索機能の改善 木下研究室 201002713 鴫原 善寿. 背景 スマートフォンなどの携帯端末の普及と ともに電子書籍に注目が浴びた。中でも amazon の kindle など電子書籍の専用端末も 現れた。 電子書籍はデータなので本棚もいらず、 持ち運びも容易になるなど様々な恩恵を もたらした。
音声翻訳における機械翻訳・音声合成の 性能評価および分析 ☆橋本佳 ,山岸順一 , William Byrne , Simon King ,徳田恵一 名工大 University of Edinburgh Cambridge University
大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
ユーザーイメージ収集 インターフェイスの開発
自然言語処理:第3回 1.前回の確認 2.構文解析 3.格文法.
最大エントロピーモデルに基づく形態素解析と辞書による影響
コンピュータプラクティス I 再現性 水野嘉明
国内線で新千歳空港を利用している航空会社はどこですか?
知識情報演習Ⅲ(後半第1回) 辻 慶太(水)
情報学類 吉田光男 アドバイザー教官: 山本幹雄 先生
ISDASインターネット分散観測: ワームの平均寿命はいくらか?
KeyGraphを活用した 食品安全リスクの 早期警告支援
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
テキストマイニング, データマイニングと 社会活動のトレース
検索エンジンに関して The Anatomy of a Large-Scale Hypertextual Web Search Engine
1.自然言語処理システム 2.単語と形態素 3.文節と係り受け
4Y-4 印象に残りやすい日本語パスワードの合成法
状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化
PSOLA法を用いた極低ビットレート音声符号化に関する検討
重文・複文の基本文型に対する 文型パターン辞書のカバー率
確率モデルによる 画像処理技術入門 --- ベイズ統計と確率的画像処理 ---
形態素解析および係り受け解析・主語を判別
テキストの類似度計算
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
日本語解析済みコーパス管理ツール 「茶器」
動詞の共起パターンを用いた 動作性名詞の述語項構造解析
平成22年6月15日 図書系職員のための アプリケーション開発講習会
検索エンジンを利用した Covert Channelの検出
自然言語処理及び実習 第11回 形態素解析.
大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換
コードクローンに含まれるメソッド呼び出しの 変更度合の分析
コードクローンに含まれるメソッド呼び出しの 変更度合の調査
識別子の命名支援を目的とした動詞-目的語関係の辞書構築
東京工科大学 コンピュータサイエンス学部 亀田弘之
ChaIME: 大規模コーパスを 用いた統計的仮名漢字変換
広瀬啓吉 研究室 4.音声認識における適応手法の開発 1.劣条件下での複数音源分離 5.音声認識のための韻律的特徴の利用
環境リスクマネジメントに関する 検索システム
只見町 インターネット・エコミュージアムの「キーワード」検索の改善
大規模データによる未知語処理を統合したスケーラブルな仮名漢字変換
品質リスクマネジメント ICH Q9 付属書Ⅰ:リスクマネジメントの方法と手法
類似度を用いた WWW のリンク構造の解析 谷 研究室    栗原 伸行.
系列ラベリングのための前向き後ろ向きアルゴリズムの一般化
テキストマイニング, データマイニングと 社会活動のトレース
様々な情報源(4章).
超大規模ウェブコーパスを用いた 分布類似度計算
顔特徴点移動量・点間距離変化量の組み合わせに基づく顔表情認識
名古屋市立大学大学院システム自然科学研究科 MIRU2009: 第12回 画像の認識・理解シンポジウム
早稲田大学大学院 基幹理工学研究科 情報理工学専攻 後藤研究室 修士1年 魏 元
不完全な定点観測から 真の不正ホストの分布が分かるか?
ウィルスって どの位感染しているのかな? 菊池研究室  小堀智弘.
項目間の対応関係を用いた XBRL財務報告書自動変換ツールの試作
C9 石橋を叩いて渡るか? ~システムに対する信頼度評価~
構造的類似性を持つ半構造化文書における頻度分析
設計情報の再利用を目的とした UML図の自動推薦ツール
ベイズ基準による 隠れセミマルコフモデルに基づく音声合成
コーパス コーパス(Corpus)はコンピュータの発達とともに、計算機可読なデータを容易に作成・収集することができるようになったことがその背景にある。現在ではコーパス言語学などの学問もある。
大規模コーパスに基づく同義語・多義語処理
自然言語処理2015 Natural Language Processing 2015
クラスタリングを用いた ベイズ学習モデルを動的に更新する ソフトウェア障害検知手法
ネット時代のセキュリティ3(暗号化) 2SK 情報機器工学.
シソーラス情報を用いた童話文章登場人物の 感情情報読み取りシステム
Webページタイプによるクラスタ リングを用いた検索支援システム
mi-8. 自然言語処理 人工知能を演習で学ぶシリーズ(8)
Q状態イジング模型を用いた多値画像修復における 周辺尤度最大化によるハイパパラメータ推定
ベイジアンネットワークと クラスタリング手法を用いたWeb障害検知システムの開発
Presentation transcript:

R01 マルコフチェインによるワードスパムの生成実験とその評価について 菊池研究室 鴨志田芳典 ダンバダルジャー・ムンフバヤル

ワードサラダ マルコフチェインによる ワードスパム つまり自分が、怒りに引き揚げても、謂わばいいくらいでしたのぞ》を食べなければ通俗の苦しみ、それは、子供のは爽快《もっ》のこぶしを感じるの腰布(しかし、めしを、もじもじした。 材料:太宰治「人間失格」

スパムブログの何が問題なのか 卒論なんてしらねぇ! 俺はブログでも読んで、 時間を潰すぜ!

彼らは 何故ワードサラダを使うのか? 引用元とは異なる文章を合成する 毎回異なる文章を生成する 構文解析では検出できない 1回目 新政権は銀行で、土地約300議席を… 2回目 元秘書らがないの虚偽記載される….. 構文解析では検出できない

その結果を元にワードサラダの効果的な排除方法について検討する。 研究目的 ワードサラダを試験的に作成し評価する。 その結果を元にワードサラダの効果的な排除方法について検討する。

ワードサラダの作り方 Step1:形態素解析 鴨志田/が/車/に/轢か/れ/た/。 鴨志田/が/子犬/に/懐か/れ/た/。 鴨志田が車に轢かれた。 鴨志田が子犬に懐かれた。          ↓ 鴨志田/が/車/に/轢か/れ/た/。 鴨志田/が/子犬/に/懐か/れ/た/。

Strp2-1:コーパス作成 n 階マルコフ連鎖 n = 1 の場合 車 轢か 1/2 1/2 1/1 1/1 1/1 1/1 れ た 。 に 鴨志田 が 1/1 1/2 1/2 子犬 懐か

Strp3:単純マルコフ連鎖による文章生成 車 轢か 1/2 1/2 1/1 1/1 1/1 1/1 れ た 。 に 鴨志田 が 1/1 1/2 1/2 子犬 懐か

鴨志田が子犬に轢かれた

Strp2-2:コーパス作成 n = 2 の場合 が/車 車/に 1/2 に/轢か 轢か/れ れ/た 鴨志田/が に/懐か 懐か/れ 1/2 が/子犬 子犬/に た/。

Strp3-2 2階マルコフ連鎖による文章生成 が/車 が/車 車/に 車/に 1/2 に/轢か に/轢か 轢か/れ 轢か/れ れ/た 鴨志田/が 鴨志田/が に/懐か 懐か/れ 1/2 が/子犬 子犬/に た/。 た/。

鴨志田が車に轢かれた

開発したシステムでの作成例 単純マルコフ連鎖(n=1) 3階マルコフ連鎖 (n=3) 基本方針を含め、罰金の314年に丸投げした。本人を受け、12月中旬に目先の寄付を記載する二つの辞任を導入し、まじめに同額の事務所は、実際は50%台に組んだ47千万円の数百万円単位の運営する政治主導した。 この3億円を含め、新生党と自由党の解党時の残金22億円余が、小沢氏関連の3つの政治団体に移されていたことが、関係者への取材で分かった。鳩山首相は不起訴だったとはいえ、政治的責任は極めて重大である。

実験 目的 試作したワードサラダの性能を 様々な視点から評価する

実験1:主観評価 評価データ ワードサラダ n=1,…,4 ・・・・・ 計40題 センテンスサラダ ・・・・・ ・・・・・・・計10題 センテンスサラダ ・・・・・ ・・・・・・・計10題 原文からの一部切り取り・・・計50題 コーパス 5000文字程度の政治・経済に関する記事

実験1:結果 正答率と応答時間 階数 n 20 応答時間 [s] 16 正答率 [%] 12 8 4 平均応答時間 平均正答率 センテンス 実験1:結果 正答率と応答時間 平均応答時間 20     応答時間 [s] 16     正答率 [%] 平均正答率 12 8 4 センテンス 原文 階数 n

問題毎の正答率と応答時間の関係

正答率 100% 応答時間平均4.6秒 (n=1) 正答率50% (n=3) 応答時間平均23.4秒 正答率 100%  応答時間平均4.6秒 (n=1) 正答率50% (n=3) 応答時間平均23.4秒 基本方針を含め、罰金の314年に丸投げした。本人を受け、12月中旬に目先の寄付を記載する二つの辞任を導入し、まじめに同額の事務所は、実際は50%台に組んだ47千万円の数百万円単位の運営する政治主導した。 この3億円を含め、新生党と自由党の解党時の残金22億円余が、小沢氏関連の3つの政治団体に移されていたことが、関係者への取材で分かった。鳩山首相は不起訴だったとはいえ、政治的責任は極めて重大である。

実験4:主観評価Ⅱ 青空文庫から4つの  小説で作ったコーパス 留学生3名 日本語の先生1名 iPhoneで実験した

実験4:正解率平均 ・約10%の差 ・コーパスは違うが  同様の振る舞い

実験4:応答時間 留学生 日本人学生 センテンス

実験2:投稿評価 実験内容 評価データ コーパス 条件を揃えた評価データをブログサービス「ココログ」に公開し、 3日間のアクセス情報を観測する。 評価データ ワードサラダ(n=1,…,4) 16件 センテンスサラダ 4件 自然な文章 4件 (文脈を考慮しコーパスを切り貼りした文章) コーパス 話題のニュース記事3,…,5 件  コーパス長L=約2000~4000

結果:実験2 アクセス統計量 センテンス 切り貼り

実験3:復元評価 実験内容 評価データに対し復元率を求める 復元率 = 評価データ ワードサラダ 評価データに対し復元率を求める  復元率 =  評価データ ワードサラダ コーパス長 L = 2500, . . . , 10000 階数 n =1, . . . , 6 コーパス 夏目漱石著 「吾輩ハ猫デアル」 の本文を抜粋 元の文書と同じ文を生成した数 文を生成した数

結果:実験3 復元率の変化 復元率 (%) L = 2500 L = 5000 L = 10000 階数n

結論 実験1,実験4より 実験2より 実験3より ワードサラダはコーパスに因らず,階数が増える程自然な文章と見分けがつき辛くなる ココログではワードサラダの文法に対する フィルタリングは行われていない ワードサラダである事はアクセス数には無関係 実験3より 復元率が80%を超える階数nとコーパス長Lの 値の組み合わせが存在する

今後の課題 大規模なコーパスや, 口語表現を多く用いたコーパスを用いた場合についての実験 それに伴ったシステムの改良 ワードサラダの検出方法の再検討

劇終 御清聴御有難う御座いました。

検出方法:関連研究 T. Larvergne, et al.,:“Detecting Fack Content with Relatine Entropy Scoring”, CEVR,Vol.377, pp. 27-31,2008. ワードサラダは 「生成される語はn 語前まで にしか依存していない」 これに着目し,n+1gramでのカルバック・ライブラー情報量の 差を用いて検出を行う方法。 しかし 実験3の結果より、 復元率が80%を超える階数nとコーパス長Lの値の組み合わせが存在する。 この場合従来手法では検出ができない。

検出方法の検討 従来手法と,Webからの検索を合わせて 使用してフィルタリングする必要がある. マルコフ連鎖による文生成には, データベースの増大に伴い一文の文字数が多くなる事が知られており、本研究でもその事を確認している。 ならばワードサラダの一文の 文字数から コーパスサイズが予測できる可能性がある. コーパスサイズが予測できれば、従来手法で検出不可能であることを事前に窺い知る事が できるかもしれないね!? また文末までを表示しないワードサラダも存在するが, その場合 文末に相応しくない単語が出現しているため, そこから検出できるはず。

P(Xi) = P(Xi|Xi−1, Xi−2, . . . , Xi−n) n階マルコフ連鎖 マルコフ情報源 現在出現する事象の確率が, それ以前の要素によって決定する情報源 n 階マルコフ連鎖 マルコフ性を持つ確率過程において 時間的な連続性のないもの n 階マルコフ連鎖において i 番目に出力される語Xi は以下の条件付確率に従う P(Xi) = P(Xi|Xi−1, Xi−2, . . . , Xi−n)  

ワードサラダの作り方 に/わに/はにわ/にわとり/が/いる/。 わに/に/は/わに/わに/わに/が/おる/。 Step1:形態素解析 にわにはにわにわとりがいる。 わににはわにわにわにがおる。          ↓ に/わに/はにわ/にわとり/が/いる/。 わに/に/は/わに/わに/わに/が/おる/。

Strp2:マルコフ連鎖による文章生成 n = 1 の場合 に はにわ いる 1/2 1/1 1/1 1/5 1/2 1/5 にわとり 。 わに が おる 2/5 1/2

Strp3:マルコフ連鎖による文章生成 n = 1 の場合 に はにわ いる 1/2 1/1 1/1 1/5 1/2 1/5 にわとり 。 わに が おる 2/5 1/2

Strp2:マルコフ連鎖による文章生成 1/1 1/1 に/わに わに/はにわ はにわ/にわとり 1/1 1/1 1/1 にわとり/が が/いる いる/。 1/1 1/1 わに/に に/は は/わに 1/1 1/3 1/1 1/1 わに/わに わに/が が/おる おる/。 2/3

Strp2:マルコフ連鎖による文章生成 1/1 1/1 に/わに わに/はにわ はにわ/にわとり 1/1 1/1 1/1 にわとり/が が/いる いる/。 1/1 1/1 わに/に に/は は/わに 1/1 1/3 1/1 1/1 わに/わに わに/が が/おる おる/。 2/3