R01 マルコフチェインによるワードスパムの生成実験とその評価について 菊池研究室 鴨志田芳典 ダンバダルジャー・ムンフバヤル
ワードサラダ マルコフチェインによる ワードスパム つまり自分が、怒りに引き揚げても、謂わばいいくらいでしたのぞ》を食べなければ通俗の苦しみ、それは、子供のは爽快《もっ》のこぶしを感じるの腰布(しかし、めしを、もじもじした。 材料:太宰治「人間失格」
スパムブログの何が問題なのか 卒論なんてしらねぇ! 俺はブログでも読んで、 時間を潰すぜ!
彼らは 何故ワードサラダを使うのか? 引用元とは異なる文章を合成する 毎回異なる文章を生成する 構文解析では検出できない 1回目 新政権は銀行で、土地約300議席を… 2回目 元秘書らがないの虚偽記載される….. 構文解析では検出できない
その結果を元にワードサラダの効果的な排除方法について検討する。 研究目的 ワードサラダを試験的に作成し評価する。 その結果を元にワードサラダの効果的な排除方法について検討する。
ワードサラダの作り方 Step1:形態素解析 鴨志田/が/車/に/轢か/れ/た/。 鴨志田/が/子犬/に/懐か/れ/た/。 鴨志田が車に轢かれた。 鴨志田が子犬に懐かれた。 ↓ 鴨志田/が/車/に/轢か/れ/た/。 鴨志田/が/子犬/に/懐か/れ/た/。
Strp2-1:コーパス作成 n 階マルコフ連鎖 n = 1 の場合 車 轢か 1/2 1/2 1/1 1/1 1/1 1/1 れ た 。 に 鴨志田 が 1/1 1/2 1/2 子犬 懐か
Strp3:単純マルコフ連鎖による文章生成 車 轢か 1/2 1/2 1/1 1/1 1/1 1/1 れ た 。 に 鴨志田 が 1/1 1/2 1/2 子犬 懐か
鴨志田が子犬に轢かれた
Strp2-2:コーパス作成 n = 2 の場合 が/車 車/に 1/2 に/轢か 轢か/れ れ/た 鴨志田/が に/懐か 懐か/れ 1/2 が/子犬 子犬/に た/。
Strp3-2 2階マルコフ連鎖による文章生成 が/車 が/車 車/に 車/に 1/2 に/轢か に/轢か 轢か/れ 轢か/れ れ/た 鴨志田/が 鴨志田/が に/懐か 懐か/れ 1/2 が/子犬 子犬/に た/。 た/。
鴨志田が車に轢かれた
開発したシステムでの作成例 単純マルコフ連鎖(n=1) 3階マルコフ連鎖 (n=3) 基本方針を含め、罰金の314年に丸投げした。本人を受け、12月中旬に目先の寄付を記載する二つの辞任を導入し、まじめに同額の事務所は、実際は50%台に組んだ47千万円の数百万円単位の運営する政治主導した。 この3億円を含め、新生党と自由党の解党時の残金22億円余が、小沢氏関連の3つの政治団体に移されていたことが、関係者への取材で分かった。鳩山首相は不起訴だったとはいえ、政治的責任は極めて重大である。
実験 目的 試作したワードサラダの性能を 様々な視点から評価する
実験1:主観評価 評価データ ワードサラダ n=1,…,4 ・・・・・ 計40題 センテンスサラダ ・・・・・ ・・・・・・・計10題 センテンスサラダ ・・・・・ ・・・・・・・計10題 原文からの一部切り取り・・・計50題 コーパス 5000文字程度の政治・経済に関する記事
実験1:結果 正答率と応答時間 階数 n 20 応答時間 [s] 16 正答率 [%] 12 8 4 平均応答時間 平均正答率 センテンス 実験1:結果 正答率と応答時間 平均応答時間 20 応答時間 [s] 16 正答率 [%] 平均正答率 12 8 4 センテンス 原文 階数 n
問題毎の正答率と応答時間の関係
正答率 100% 応答時間平均4.6秒 (n=1) 正答率50% (n=3) 応答時間平均23.4秒 正答率 100% 応答時間平均4.6秒 (n=1) 正答率50% (n=3) 応答時間平均23.4秒 基本方針を含め、罰金の314年に丸投げした。本人を受け、12月中旬に目先の寄付を記載する二つの辞任を導入し、まじめに同額の事務所は、実際は50%台に組んだ47千万円の数百万円単位の運営する政治主導した。 この3億円を含め、新生党と自由党の解党時の残金22億円余が、小沢氏関連の3つの政治団体に移されていたことが、関係者への取材で分かった。鳩山首相は不起訴だったとはいえ、政治的責任は極めて重大である。
実験4:主観評価Ⅱ 青空文庫から4つの 小説で作ったコーパス 留学生3名 日本語の先生1名 iPhoneで実験した
実験4:正解率平均 ・約10%の差 ・コーパスは違うが 同様の振る舞い
実験4:応答時間 留学生 日本人学生 センテンス
実験2:投稿評価 実験内容 評価データ コーパス 条件を揃えた評価データをブログサービス「ココログ」に公開し、 3日間のアクセス情報を観測する。 評価データ ワードサラダ(n=1,…,4) 16件 センテンスサラダ 4件 自然な文章 4件 (文脈を考慮しコーパスを切り貼りした文章) コーパス 話題のニュース記事3,…,5 件 コーパス長L=約2000~4000
結果:実験2 アクセス統計量 センテンス 切り貼り
実験3:復元評価 実験内容 評価データに対し復元率を求める 復元率 = 評価データ ワードサラダ 評価データに対し復元率を求める 復元率 = 評価データ ワードサラダ コーパス長 L = 2500, . . . , 10000 階数 n =1, . . . , 6 コーパス 夏目漱石著 「吾輩ハ猫デアル」 の本文を抜粋 元の文書と同じ文を生成した数 文を生成した数
結果:実験3 復元率の変化 復元率 (%) L = 2500 L = 5000 L = 10000 階数n
結論 実験1,実験4より 実験2より 実験3より ワードサラダはコーパスに因らず,階数が増える程自然な文章と見分けがつき辛くなる ココログではワードサラダの文法に対する フィルタリングは行われていない ワードサラダである事はアクセス数には無関係 実験3より 復元率が80%を超える階数nとコーパス長Lの 値の組み合わせが存在する
今後の課題 大規模なコーパスや, 口語表現を多く用いたコーパスを用いた場合についての実験 それに伴ったシステムの改良 ワードサラダの検出方法の再検討
劇終 御清聴御有難う御座いました。
検出方法:関連研究 T. Larvergne, et al.,:“Detecting Fack Content with Relatine Entropy Scoring”, CEVR,Vol.377, pp. 27-31,2008. ワードサラダは 「生成される語はn 語前まで にしか依存していない」 これに着目し,n+1gramでのカルバック・ライブラー情報量の 差を用いて検出を行う方法。 しかし 実験3の結果より、 復元率が80%を超える階数nとコーパス長Lの値の組み合わせが存在する。 この場合従来手法では検出ができない。
検出方法の検討 従来手法と,Webからの検索を合わせて 使用してフィルタリングする必要がある. マルコフ連鎖による文生成には, データベースの増大に伴い一文の文字数が多くなる事が知られており、本研究でもその事を確認している。 ならばワードサラダの一文の 文字数から コーパスサイズが予測できる可能性がある. コーパスサイズが予測できれば、従来手法で検出不可能であることを事前に窺い知る事が できるかもしれないね!? また文末までを表示しないワードサラダも存在するが, その場合 文末に相応しくない単語が出現しているため, そこから検出できるはず。
P(Xi) = P(Xi|Xi−1, Xi−2, . . . , Xi−n) n階マルコフ連鎖 マルコフ情報源 現在出現する事象の確率が, それ以前の要素によって決定する情報源 n 階マルコフ連鎖 マルコフ性を持つ確率過程において 時間的な連続性のないもの n 階マルコフ連鎖において i 番目に出力される語Xi は以下の条件付確率に従う P(Xi) = P(Xi|Xi−1, Xi−2, . . . , Xi−n)
ワードサラダの作り方 に/わに/はにわ/にわとり/が/いる/。 わに/に/は/わに/わに/わに/が/おる/。 Step1:形態素解析 にわにはにわにわとりがいる。 わににはわにわにわにがおる。 ↓ に/わに/はにわ/にわとり/が/いる/。 わに/に/は/わに/わに/わに/が/おる/。
Strp2:マルコフ連鎖による文章生成 n = 1 の場合 に はにわ いる 1/2 1/1 1/1 1/5 1/2 1/5 にわとり 。 わに が おる 2/5 1/2
Strp3:マルコフ連鎖による文章生成 n = 1 の場合 に はにわ いる 1/2 1/1 1/1 1/5 1/2 1/5 にわとり 。 わに が おる 2/5 1/2
Strp2:マルコフ連鎖による文章生成 1/1 1/1 に/わに わに/はにわ はにわ/にわとり 1/1 1/1 1/1 にわとり/が が/いる いる/。 1/1 1/1 わに/に に/は は/わに 1/1 1/3 1/1 1/1 わに/わに わに/が が/おる おる/。 2/3
Strp2:マルコフ連鎖による文章生成 1/1 1/1 に/わに わに/はにわ はにわ/にわとり 1/1 1/1 1/1 にわとり/が が/いる いる/。 1/1 1/1 わに/に に/は は/わに 1/1 1/3 1/1 1/1 わに/わに わに/が が/おる おる/。 2/3