Presentation is loading. Please wait.

Presentation is loading. Please wait.

R01 マルコフチェインによるワードスパムの生成実験とその評価について

Similar presentations


Presentation on theme: "R01 マルコフチェインによるワードスパムの生成実験とその評価について"— Presentation transcript:

1 R01 マルコフチェインによるワードスパムの生成実験とその評価について
菊池研究室 鴨志田芳典 ダンバダルジャー・ムンフバヤル

2 ワードサラダ マルコフチェインによる ワードスパム
つまり自分が、怒りに引き揚げても、謂わばいいくらいでしたのぞ》を食べなければ通俗の苦しみ、それは、子供のは爽快《もっ》のこぶしを感じるの腰布(しかし、めしを、もじもじした。 材料:太宰治「人間失格」

3 スパムブログの何が問題なのか 卒論なんてしらねぇ! 俺はブログでも読んで、 時間を潰すぜ!

4 彼らは 何故ワードサラダを使うのか? 引用元とは異なる文章を合成する 毎回異なる文章を生成する 構文解析では検出できない
1回目 新政権は銀行で、土地約300議席を… 2回目 元秘書らがないの虚偽記載される….. 構文解析では検出できない

5 その結果を元にワードサラダの効果的な排除方法について検討する。
研究目的 ワードサラダを試験的に作成し評価する。 その結果を元にワードサラダの効果的な排除方法について検討する。

6 ワードサラダの作り方 Step1:形態素解析 鴨志田/が/車/に/轢か/れ/た/。 鴨志田/が/子犬/に/懐か/れ/た/。
鴨志田が車に轢かれた。 鴨志田が子犬に懐かれた。          ↓ 鴨志田/が/車/に/轢か/れ/た/。 鴨志田/が/子犬/に/懐か/れ/た/。

7 Strp2-1:コーパス作成 n 階マルコフ連鎖 n = 1 の場合 車 轢か 1/2 1/2 1/1 1/1 1/1 1/1 れ た 。
鴨志田 1/1 1/2 1/2 子犬 懐か

8 Strp3:単純マルコフ連鎖による文章生成
轢か 1/2 1/2 1/1 1/1 1/1 1/1 鴨志田 1/1 1/2 1/2 子犬 懐か

9 鴨志田が子犬に轢かれた

10 Strp2-2:コーパス作成 n = 2 の場合 が/車 車/に 1/2 に/轢か 轢か/れ れ/た 鴨志田/が に/懐か 懐か/れ 1/2
が/子犬 子犬/に た/。

11 Strp3-2 2階マルコフ連鎖による文章生成 が/車 が/車 車/に 車/に 1/2 に/轢か に/轢か 轢か/れ 轢か/れ れ/た
鴨志田/が 鴨志田/が に/懐か 懐か/れ 1/2 が/子犬 子犬/に た/。 た/。

12 鴨志田が車に轢かれた

13 開発したシステムでの作成例 単純マルコフ連鎖(n=1) 3階マルコフ連鎖 (n=3)
基本方針を含め、罰金の314年に丸投げした。本人を受け、12月中旬に目先の寄付を記載する二つの辞任を導入し、まじめに同額の事務所は、実際は50%台に組んだ47千万円の数百万円単位の運営する政治主導した。 この3億円を含め、新生党と自由党の解党時の残金22億円余が、小沢氏関連の3つの政治団体に移されていたことが、関係者への取材で分かった。鳩山首相は不起訴だったとはいえ、政治的責任は極めて重大である。

14 実験 目的 試作したワードサラダの性能を 様々な視点から評価する

15 実験1:主観評価 評価データ ワードサラダ n=1,…,4 ・・・・・ 計40題 センテンスサラダ ・・・・・ ・・・・・・・計10題
センテンスサラダ ・・・・・ ・・・・・・・計10題 原文からの一部切り取り・・・計50題 コーパス 5000文字程度の政治・経済に関する記事

16 実験1:結果 正答率と応答時間 階数 n 20 応答時間 [s] 16 正答率 [%] 12 8 4 平均応答時間 平均正答率 センテンス
実験1:結果 正答率と応答時間 平均応答時間 20     応答時間 [s] 16     正答率 [%] 平均正答率 12 8 4 センテンス 原文 階数 n

17 問題毎の正答率と応答時間の関係

18 正答率 100% 応答時間平均4.6秒 (n=1) 正答率50% (n=3) 応答時間平均23.4秒
正答率 100%  応答時間平均4.6秒 (n=1) 正答率50% (n=3) 応答時間平均23.4秒 基本方針を含め、罰金の314年に丸投げした。本人を受け、12月中旬に目先の寄付を記載する二つの辞任を導入し、まじめに同額の事務所は、実際は50%台に組んだ47千万円の数百万円単位の運営する政治主導した。 この3億円を含め、新生党と自由党の解党時の残金22億円余が、小沢氏関連の3つの政治団体に移されていたことが、関係者への取材で分かった。鳩山首相は不起訴だったとはいえ、政治的責任は極めて重大である。

19 実験4:主観評価Ⅱ 青空文庫から4つの  小説で作ったコーパス 留学生3名 日本語の先生1名 iPhoneで実験した

20 実験4:正解率平均 ・約10%の差 ・コーパスは違うが  同様の振る舞い

21 実験4:応答時間 留学生 日本人学生 センテンス

22 実験2:投稿評価 実験内容 評価データ コーパス 条件を揃えた評価データをブログサービス「ココログ」に公開し、
3日間のアクセス情報を観測する。 評価データ ワードサラダ(n=1,…,4) 16件 センテンスサラダ 4件 自然な文章 4件 (文脈を考慮しコーパスを切り貼りした文章) コーパス 話題のニュース記事3,…,5 件  コーパス長L=約2000~4000

23 結果:実験2 アクセス統計量 センテンス 切り貼り

24 実験3:復元評価 実験内容 評価データに対し復元率を求める 復元率 = 評価データ ワードサラダ
評価データに対し復元率を求める  復元率 =  評価データ ワードサラダ コーパス長 L = 2500, , 10000 階数 n =1, , 6 コーパス 夏目漱石著 「吾輩ハ猫デアル」 の本文を抜粋 元の文書と同じ文を生成した数 文を生成した数

25 結果:実験3 復元率の変化 復元率 (%) L = 2500 L = 5000 L = 10000 階数n

26 結論 実験1,実験4より 実験2より 実験3より ワードサラダはコーパスに因らず,階数が増える程自然な文章と見分けがつき辛くなる
ココログではワードサラダの文法に対する フィルタリングは行われていない ワードサラダである事はアクセス数には無関係 実験3より 復元率が80%を超える階数nとコーパス長Lの 値の組み合わせが存在する

27 今後の課題 大規模なコーパスや, 口語表現を多く用いたコーパスを用いた場合についての実験 それに伴ったシステムの改良
ワードサラダの検出方法の再検討

28 劇終 御清聴御有難う御座いました。

29 検出方法:関連研究 T. Larvergne, et al.,:“Detecting Fack Content with Relatine Entropy Scoring”, CEVR,Vol.377, pp ,2008. ワードサラダは 「生成される語はn 語前まで にしか依存していない」 これに着目し,n+1gramでのカルバック・ライブラー情報量の 差を用いて検出を行う方法。 しかし 実験3の結果より、 復元率が80%を超える階数nとコーパス長Lの値の組み合わせが存在する。 この場合従来手法では検出ができない。

30 検出方法の検討 従来手法と,Webからの検索を合わせて 使用してフィルタリングする必要がある.
マルコフ連鎖による文生成には, データベースの増大に伴い一文の文字数が多くなる事が知られており、本研究でもその事を確認している。 ならばワードサラダの一文の 文字数から コーパスサイズが予測できる可能性がある. コーパスサイズが予測できれば、従来手法で検出不可能であることを事前に窺い知る事が できるかもしれないね!? また文末までを表示しないワードサラダも存在するが, その場合 文末に相応しくない単語が出現しているため, そこから検出できるはず。

31 P(Xi) = P(Xi|Xi−1, Xi−2, . . . , Xi−n)
n階マルコフ連鎖 マルコフ情報源 現在出現する事象の確率が, それ以前の要素によって決定する情報源 n 階マルコフ連鎖 マルコフ性を持つ確率過程において 時間的な連続性のないもの n 階マルコフ連鎖において i 番目に出力される語Xi は以下の条件付確率に従う P(Xi) = P(Xi|Xi−1, Xi−2, , Xi−n)  

32 ワードサラダの作り方 に/わに/はにわ/にわとり/が/いる/。 わに/に/は/わに/わに/わに/が/おる/。 Step1:形態素解析
にわにはにわにわとりがいる。 わににはわにわにわにがおる。          ↓ に/わに/はにわ/にわとり/が/いる/。 わに/に/は/わに/わに/わに/が/おる/。

33 Strp2:マルコフ連鎖による文章生成 n = 1 の場合 に はにわ いる 1/2 1/1 1/1 1/5 1/2 1/5 にわとり 。
わに おる 2/5 1/2

34 Strp3:マルコフ連鎖による文章生成 n = 1 の場合 に はにわ いる 1/2 1/1 1/1 1/5 1/2 1/5 にわとり 。
わに おる 2/5 1/2

35 Strp2:マルコフ連鎖による文章生成 1/1 1/1 に/わに わに/はにわ はにわ/にわとり 1/1 1/1 1/1 にわとり/が
が/いる いる/。 1/1 1/1 わに/に に/は は/わに 1/1 1/3 1/1 1/1 わに/わに わに/が が/おる おる/。 2/3

36 Strp2:マルコフ連鎖による文章生成 1/1 1/1 に/わに わに/はにわ はにわ/にわとり 1/1 1/1 1/1 にわとり/が
が/いる いる/。 1/1 1/1 わに/に に/は は/わに 1/1 1/3 1/1 1/1 わに/わに わに/が が/おる おる/。 2/3


Download ppt "R01 マルコフチェインによるワードスパムの生成実験とその評価について"

Similar presentations


Ads by Google