Presentation is loading. Please wait.

Presentation is loading. Please wait.

Webからの剽窃レポート 検出手法の実装と評価

Similar presentations


Presentation on theme: "Webからの剽窃レポート 検出手法の実装と評価"— Presentation transcript:

1 Webからの剽窃レポート 検出手法の実装と評価
福井大学工学部知能システム工学科 高橋 勇 宮川勝年 小高 知宏 白井 治彦 黒岩 丈介 小倉 久和

2 はじめに 剽窃(コピー&改変)によりレポートを作成する学習者 剽窃行為の問題 状況の変化 研究の目的
・学習者の学習機会を奪う ・教師の成績評価の妨げ ・著作権侵害の可能性 指導が必要 確認作業にかける教師の負担大 状況の変化 学生間のレポートのコピー Web上の文書のコピーへ 研究の目的 Webからのコピーレポートの発見を支援する システムの枠組みの設計・実装・評価

3 特徴と方針 学習者間のコピーによるレポートの評価 Webからのコピーとの違い ・Web検索エンジンの利用
小高知宏他,「n-gramを用いた学生レポート評価手法の提案」 電子情報通信学会論文誌 2003/9 Vol.J86-D-I No.9 Webからのコピーとの違い 学習者間のコピー Webからのコピー 剽窃元 教師が保持 Web上に存在 剽窃部分の傾向 全体を写す 一部を抜き出す ・Web検索エンジンの利用 ・剽窃判定の評価方法をWebからの剽窃へ対応 Webからのコピーレポート発見のトータルな支援

4 コピーレポートと発見支援の方法 支援内容 ・剽窃元Webページの検出 Web検索エンジン ・剽窃の可能性の推定 ・剽窃個所の特定 Web検索
剽窃元候補 剽窃の可能性 82% 支援システム ・・・ついて考えましょう. 一般にコンピュータは 電子計算機と呼ばれ ます.電気で計算を する機械のことですが 現在使われているコン ピュータは電卓などの 機械とは異なり,単に 数字を計算するだけの ものではありません. 特に重要な特徴と・・・ コンピュータは電子 計算機のことであり, 電気で計算をする 機械ではあるが,電 卓などの機械とは 異なり,単に数字を 計算するだけのもの ではない. Web検索 Web検索エンジン ・・・ついて考えましょう. 一般にコンピュータは 電子計算機と呼ばれ ます.電気で計算を する機械のことですが 現在使われているコン ピュータは電卓などの 機械とは異なり,単に 数字を計算するだけの ものではありません. 特に重要な特徴と・・・ コピー&ペースト 一般にコンピュータは 電子計算機と呼ばれ ます.電気で計算を する機械のことですが 現在使われているコン ピュータは電卓などの 機械とは異なり,単に 数字を計算するだけの ものではありません. 一般にコンピュータは 電子計算機のことで あり,電気で計算を する機械ではあるが 現在使われているコン ピュータは電卓などの 機械とは異なり,単に 数字を計算するだけの ものではない. 改変 提出 コンピュータは電子 計算機のことであり, 電気で計算をする 機械ではあるが,電 卓などの機械とは 異なり,単に数字を 計算するだけのもの ではない. レポート課題: コンピュータについて 調べてまとめなさい 学習者 教師

5 システムに必要な機能 Web検索機能 レポートに基づいた検索ワードの生成 Web検索による剽窃元候補Webページの収集 剽窃評価機能
剽窃元候補Webページとレポートの類似性の評価 視覚表示機能 評価値に基づく剽窃元候補Webページの整理 剽窃個所の特定

6 システム構成 Web&検索エンジン 剽窃元候補 Web検索部 レポートDB Webページ 剽窃検査部 視覚表示部 ユーザインタフェース
剽窃レポートの情報 ユーザインタフェース レポート

7 Web検索部 検索ワードの生成 剽窃元候補Webページの収集 ・レポートに含まれる特徴的な文字列を複数抽出
・AND・ORを用いた組み合わせ検索 漢字・英字・カタカナが連続する長い文字列 抽出例(ネットワーク関連の課題の例) 大容量イーサネット専用回線 ワンクリック料金請求 無線LANアクセスポイント ネットワーク敷設時 あらかじめ定めた論理演算式に適用 論理演算式の例 W1・W2・W3 , W1+W2+W3 など 剽窃元候補Webページの収集 ・既存の検索エンジンで検索+検索結果上位のURL取得 ・非対応フォーマットのファイル(PDF,Word形式等)の削除 ・Webアクセスによるページの取得

8 剽窃評価部 Σ n-gram による類似度評価 これは計算機です これは 1 れは計 は計算 計算機 算機で 機です
文章 3-gram 出現回数 これは計算機です n-gram による類似度評価 これは れは計 は計算 計算機 算機で 機です ・文章を n文字の列 に分解 ・出現頻度の分布により評価 改変の影響が少ない評価指標 レポート間:母集団はレポート間で共通の n-gram ↓ 修正 Web・レポート間:母集団はレポート内の n-gram レポート全体のn-gramがどの程度Webページに含まれるか評価 評価式 R = 1- 1 K Σ i = 1 P (X i ) -Q (X i ) P (X i ) +Q (X i ) 2 K :レポート内のn-gram数 Xi :レポート内の各n-gram P(Xi) :レポートでの出現頻度 Q(Xi) :Webページでの出現頻度

9 剽窃候補Webページのランク付け 全剽窃候補Webページに評価値を付与 評価の高い順にソートして提示 剽窃元候補Webページ レポート 評価
XXX 剽窃元候補 1: 2: 3: 0.77 WWW 0.18 YYY 0.35 ZZZ 0.23 全剽窃候補Webページに評価値を付与 評価の高い順にソートして提示

10 視覚表示部 Webページに一定の長さ以上一致する文字列が 存在する部分をマーク 剽窃候補Webページ レポート (1) マッチ可能な
(2) 一定の長さ以上ならマーク ・・・ついて考えましょう. 一般にコンピュータは 電子計算機と呼ばれ ます.電気で計算を する機械のことですが 現在使われているコン ピュータは電卓など・・・ コンピュータは電子 計算機のことであり, ・・・ついて考えましょう. 一般にコンピュータは 電子計算機と呼ばれ ます.電気で計算を する機械のことですが 現在使われているコン ピュータは電卓など・・・ コンピュータは電子 計算機のことであり, 電気で計算をする 機械ではあるが, (3) 次の文字に着目して同様の作業を繰り返す (一定の長さ以下なら1文字ずらす) (1) マッチ可能な 文字列の最大の 長さを調べる

11 システムの実装例 開発言語 PHP 動作環境 Apache+PHP (Web上で動作可)

12 システムの動作 レポートファイルの選択 開始ボタンのクリック

13 システムの動作 剽窃元と疑われる ページのURL 評価値 視覚表示機能の呼び出し

14 評価値0.77 評価値0.13

15 評価実験 目的 手作業 主観的評価 による剽窃検査との比較 実験対象 福井大学・知能システム工学科の授業 課題1:
学年:大学1年生 字数制限:200字以上 テーマ: 「CRTと液晶以外にはどのような表示装置があるか調査せよ」 件数:46件 課題2: 学年:大学3年生 字数制限:1000字以上 「イーサネットの現状と今後」 件数:53件

16 手作業・主観による調査の方法 レポートを3つに分類 本システムにより検出された最も剽窃元の可能性が 高いWebページの評価値と比較
(1)調査者の主観で検索キーワードを想定 20分程度の調査 (2)調査者の主観で疑わしいと思われるもの 1時間程度の調査 (3)調査者の主観で剽窃の程度を判定 半分以上剽窃と思われる→剽窃レポートとみなす レポートを3つに分類 剽窃レポート :剽窃と判断されたレポート 非剽窃レポート :剽窃と判断されなかったレポート 文献明記レポート:本文中に引用が明記されているレポート 本システムにより検出された最も剽窃元の可能性が 高いWebページの評価値と比較

17 結果:課題1 ×剽窃レポート ○非剽窃レポート △文献明記 26件 20件 0件 0.5 0.4 0.3 評 0.2 価 値 0.1
0 5 10 15 20 25 30 35 40 45 レポート番号(昇順にソート)

18 結果:課題2 ×剽窃レポート ○非剽窃レポート △文献引用 29件 22件 2件 1.0 0.8 0.6 0.4 評 価 0.2 値 0.0
0 5 10 15 20 25 30 35 40 45 50 レポート番号(昇順にソート)

19 考察 剽窃レポート発見支援に有効 特に複数のページからの剽窃への対応が重要! 手作業・主観による判定 本システムの結果
剽窃レポート → 高い評価値に集中 非剽窃レポート → 低い評価値に集中 剽窃レポート発見支援に有効 評価値が低い剽窃レポート ・Web側が画像やPDF形式のデータであったケース ・レポート中の誤字により,検索ワードに誤字が含まれるケース →検索ワード生成方法の検討 ・複数のWebページから数行ずつコピーしたケース →複数のWebページとレポートとの評価手法の検討 評価値が中程度の剽窃レポート ・複数のWebページからコピーしたケース 特に複数のページからの剽窃への対応が重要!

20 まとめ 今後の課題 Webページからの剽窃レポートの発見支援 →支援の可能性を示唆 手法の改良 ・複数のWebページからのコピーへの対応
枠組みの検討とシステムの設計 ・Web検索エンジンの利用 ・類似度評価手法の応用 実装・評価 → 手作業・主観的評価とほぼ一致 →支援の可能性を示唆 今後の課題 手法の改良 ・複数のWebページからのコピーへの対応 ・検索ワード作成手法の再検討 複数のレポートの一括チェック手法の検討

21 おわり

22 使用した論理演算式 3つの単語のANDとOR ・等価な論理式でも書き方によって異なる結果が出る
w1 w2 w3 w1+w2+w3 (w1+w2)w3 +(w2+w3)w1+(w3+w1)w2 (w1w2+w3)+(w2w3+w1)+(w3w1+w2) ・等価な論理式でも書き方によって異なる結果が出る (w1+w2 と w2+w1で結果が変わることがある) ・同じ論理式でも検索時間帯によって異なる結果が出る (例えば「グーグルダンス」と呼ばれる現象など) 厳密な検討はあまり意味がない →検索できそうな組み合わせを経験的に用意

23 シミュレーション実験(1) 目的 Webページの機械的な改変によるレポート →本手法で剽窃元の発見が可能か? 実験方法
・下記の方法に従って20テーマのレポート(80件)を作成 (1) 末尾の「です・ます調」「だ・である調」を相互変換 (2)行数の入れ替え (3)行の削除 (4)複数ページの混合(剽窃元の25%を別ページへ置き換え) ・本システムを用いて下記を調査 (A) 評価結果のうち,剽窃元Webページの順位 (B) 剽窃元Webページの評価値

24 擬似剽窃レポートの調査結果 改変項目 順位 評価値 (1)文末変換 3.50 ± 2.14 0.983 (2)順序変更
4.85 ± 2.43 0.956 (3)文章削除 3.55 ± 1.82 0.961 (4)複数混合 3.35 ± 2.23 0.794 ※剽窃元を検索できないレポートは存在しなかった. 順位が1位にならないケースの原因 ・同種の文章が載っている異なるWebページ

25 擬似剽窃レポートの評価値

26 シミュレーション実験(2) 目的 オリジナルと思われる文章 →本手法で剽窃でないという判断が可能か? 実験方法
論文誌や研究報告:Webからの剽窃でないとみなす →高い評価値のWebページが出てこないことの確認 ・論文誌の序論200字程度を抽出した文書を20件を作成 (先頭から200文字以上の最初の句点までを使う) ・本システムの評価結果のうち評価値が最大のものを調査 結果 評価値の平均

27 論文誌から抽出した文章の評価値

28 シミュレーション実験の結果 機械的なWebページの改変 論文誌の序論 0.7以上に集中 0.3程度以下に集中

29 考察 Webページの改変によるレポート 論文誌の序論 全て検索可+高評価値 低評価値 Webからの剽窃発見支援に有効
複数のWebページからの混合 →割合に応じて評価値が低下 複数のページからの剽窃への対応が必要

30 Webからの剽窃手順とその発見方法 Webページ Webページ 剽窃元候補 Webページ Web検索エンジン 検索キーワード生成
剽窃の判定 剽窃元 Web ページ レポート課題 レポート 剽窃 剽窃個所の特定 レポート 学習者 剽窃 教師


Download ppt "Webからの剽窃レポート 検出手法の実装と評価"

Similar presentations


Ads by Google