Webからの剽窃レポート 検出手法の実装と評価

Slides:



Advertisements
Similar presentations
1 通信教育学部 コンピュータ演習 Excel の書式設定と関数 授業ページ「コンピュータ演習(通信教育学 部)」を 開いてください。提出課題の一覧が掲載されてい ます。
Advertisements

1 WORD の起動法と終了法 ● WORD の起動法 (1) デスクトップの Microsoft Word アイ コンをダブルクリックする。 * (2) 「スタート」 ― 「すべてのプログラ ム」 ― 「 Microsoft Word 」と選ぶ。 (3) Word で作成された文書があるとき は、そのアイコンをダブルクリック.
雑誌記事 DB の使用方法. 8-3 MAGAZINEPLUS データベース 38) 概要 MAGAZINEPLUS ( NICHIGAI/WEB サービス) – 約 30,000 誌、 11,000,143 件( 2010/01/22.
電子書籍の検索機能の改善 木下研究室 201002713 鴫原 善寿. 背景 スマートフォンなどの携帯端末の普及と ともに電子書籍に注目が浴びた。中でも amazon の kindle など電子書籍の専用端末も 現れた。 電子書籍はデータなので本棚もいらず、 持ち運びも容易になるなど様々な恩恵を もたらした。
NDL-OPAC 国立国会図書館 Webcat PLUS 国立情報学研究所 Books 日本書籍出版協会
シーケンス図の生成のための実行履歴圧縮手法
コンピュータプラクティス I 再現性 水野嘉明
高度情報演習1A “テーマC” 実践 画像処理プログラミング 〜画像認識とCGによる画像生成〜 第四回 演習課題 画像中からの物体抽出処理(背景情報を手がかりとして) 芝浦工業大学 工学部 情報工学科 青木 義満 2006/05/15.
2017/3/2 情報処理 第8回.
数当てゲーム (「誤り訂正符号」に関連した話題)
工学部 知能情報工学科 准教授 高 尚策 (コウ ショウサク)
④CiNii ⑤NDL-OPAC(雑誌記事) ⑥日経BP
国内線で新千歳空港を利用している航空会社はどこですか?
情報処理基礎 2006年 6月 1日.
2017/3/7 情報処理 第8回.
ファイルやフォルダを検索する ①「スタート」→「検索」→「ファイルとフォルダ」とクリックする。
画素密度検出エージェントを用いた文字列の検出と文字切り出し
実証分析の手順 経済データ解析 2011年度.
JavaによるCAI学習ソフトウェアの開発
相互評価システムの開発と大学情報科目における利用 柴田好章(名古屋大学大学院) 小川亮(富山大学教育学部)
図書DBの使用方法 NDL-OPAC 国立国会図書館 Webcat PLUS 国立情報学研究所 Books 日本書籍出版協会
プログラミング演習Ⅱ 第12回 文字列とポインタ(1)
情報爆発A01支援班 マイサーチエンジン開発環境支援グループ 中村聡史, 大島裕明, 田中克己, 喜連川優
神奈川大学大学院工学研究科 電気電子情報工学専攻
2 プログラムの基本 本時のねらい 「① プロラムのはたらきを知ろう。」 「② 仕事の流れを図に表そう。」
文献管理ソフトRefWorksの利用.
卒業論文 最終発表 WWW情報検索 ナビゲーションシステムの設計と実装
“いじめ現象”の形式構造を探る ~人工学級のMulti-Agent Simulation~
13回目 複合情報検索 13-1 課題の概要 13-2 EBSCOhost の使用方法 13-3 ProQuestの使用方法
14回. まとめ 情報のまとめかた DBの利用 情報検索の留意点 情報検索と情報収集 68 基礎知識の必要性 68
大阪教育大学大学院教育学研究科 総合基礎科学専攻 中窪 仁
メソッド名とその周辺の識別子の 相関ルールに基づくメソッド名変更支援手法
データ分析基礎c(2012年以降入学) 情報編集基礎c(2011年以前入学)
この資料は、テキストをもとに、講義のために作成したものです.学習用に活用してください.
データベース設計 第9回 Webインタフェースの作成(1)
日本語解析済みコーパス管理ツール 「茶器」
Java ソフトウェア部品検索システム SPARS-J のための リポジトリ自動更新機能の実現
地理情報システム論演習 地理情報システム論演習
プログラム実行履歴を用いたトランザクションファンクション抽出手法
プログラム実行時情報を用いたトランザクションファンクション抽出手法
識別子の命名支援を目的とした動詞-目的語関係の辞書構築
定兼邦彦 今井浩 東京大学理学系研究科 情報科学専攻
動的依存グラフの3-gramを用いた 実行トレースの比較手法
利用関係に基づく類似度を用いたJavaコンポーネント分類ツールの作成
実行時情報に基づく OSカーネルのコンフィグ最小化
環境リスクマネジメントに関する 検索システム
WWW上の効率的な ハブ探索法の提案と実装
ネットショップデザイン入門Ⅰ・ⅡSEO 2013/12/18 Webデザイン入門 SEOの基本.
情報検索(6) メディア検索の仕組み 教員 岩村 雅一
深層学習を用いた音声認識システム 工学部 電気電子工学科 白井研究室 T213069 林健吉.
リファクタリング支援のための コードクローンに含まれる識別子の対応関係分析
Internet広域分散協調サーチロボット の研究開発
Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 清水 洋志.
エピソード記憶に訴えるBookmarkless Bookmarkの実現
★CD-ROMを使った情報検索 瞬時に検索できる! ★電子文字化されたデータを使いレポートを仕上げる 電子文字は加工が容易!
情報コミュニケーション入門b 第11回 Web入門(2)
コードクローン分類の詳細化に基づく 集約パターンの提案と評価
情報処理基礎A・B 坂口利裕 横浜市立大学・商学部
コーディングパターンの あいまい検索の提案と実装
オブジェクトの協調動作を用いた オブジェクト指向プログラム実行履歴分割手法
構造的類似性を持つ半構造化文書における頻度分析
設計情報の再利用を目的とした UML図の自動推薦ツール
発表32 レポート評価支援について (剽窃部分と指導箇所の検出)
情報処理基礎 2006年 6月 29日.
欠陥検出を目的とした類似コード検索法 吉田則裕,石尾隆,松下誠,井上克郎 大阪大学 大学院情報科学研究科
Webページタイプによるクラスタ リングを用いた検索支援システム
MAUI Project 2009 インターネットにおける近接性
一問一答式クイズAQuAsにおける学習支援の方法
プログラム依存グラフを用いた ソースコードのパターン違反検出法
Presentation transcript:

Webからの剽窃レポート 検出手法の実装と評価 福井大学工学部知能システム工学科 高橋 勇 宮川勝年 小高 知宏 白井 治彦 黒岩 丈介 小倉 久和

はじめに 剽窃(コピー&改変)によりレポートを作成する学習者 剽窃行為の問題 状況の変化 研究の目的 ・学習者の学習機会を奪う ・教師の成績評価の妨げ ・著作権侵害の可能性 指導が必要 確認作業にかける教師の負担大 状況の変化 学生間のレポートのコピー Web上の文書のコピーへ 研究の目的 Webからのコピーレポートの発見を支援する システムの枠組みの設計・実装・評価

特徴と方針 学習者間のコピーによるレポートの評価 Webからのコピーとの違い ・Web検索エンジンの利用 小高知宏他,「n-gramを用いた学生レポート評価手法の提案」 電子情報通信学会論文誌 2003/9 Vol.J86-D-I No.9 Webからのコピーとの違い 学習者間のコピー Webからのコピー 剽窃元 教師が保持 Web上に存在 剽窃部分の傾向 全体を写す 一部を抜き出す ・Web検索エンジンの利用 ・剽窃判定の評価方法をWebからの剽窃へ対応 Webからのコピーレポート発見のトータルな支援

コピーレポートと発見支援の方法 支援内容 ・剽窃元Webページの検出 Web検索エンジン ・剽窃の可能性の推定 ・剽窃個所の特定 Web検索 剽窃元候補 剽窃の可能性 82% 支援システム ・・・ついて考えましょう. 一般にコンピュータは 電子計算機と呼ばれ ます.電気で計算を する機械のことですが 現在使われているコン ピュータは電卓などの 機械とは異なり,単に 数字を計算するだけの ものではありません. 特に重要な特徴と・・・ コンピュータは電子 計算機のことであり, 電気で計算をする 機械ではあるが,電 卓などの機械とは 異なり,単に数字を 計算するだけのもの ではない. Web検索 Web検索エンジン ・・・ついて考えましょう. 一般にコンピュータは 電子計算機と呼ばれ ます.電気で計算を する機械のことですが 現在使われているコン ピュータは電卓などの 機械とは異なり,単に 数字を計算するだけの ものではありません. 特に重要な特徴と・・・ コピー&ペースト 一般にコンピュータは 電子計算機と呼ばれ ます.電気で計算を する機械のことですが 現在使われているコン ピュータは電卓などの 機械とは異なり,単に 数字を計算するだけの ものではありません. 一般にコンピュータは 電子計算機のことで あり,電気で計算を する機械ではあるが 現在使われているコン ピュータは電卓などの 機械とは異なり,単に 数字を計算するだけの ものではない. 改変 提出 コンピュータは電子 計算機のことであり, 電気で計算をする 機械ではあるが,電 卓などの機械とは 異なり,単に数字を 計算するだけのもの ではない. レポート課題: コンピュータについて 調べてまとめなさい 学習者 教師

システムに必要な機能 Web検索機能 レポートに基づいた検索ワードの生成 Web検索による剽窃元候補Webページの収集 剽窃評価機能 剽窃元候補Webページとレポートの類似性の評価 視覚表示機能 評価値に基づく剽窃元候補Webページの整理 剽窃個所の特定

システム構成 Web&検索エンジン 剽窃元候補 Web検索部 レポートDB Webページ 剽窃検査部 視覚表示部 ユーザインタフェース 剽窃レポートの情報 ユーザインタフェース 教 師 レポート

Web検索部 検索ワードの生成 剽窃元候補Webページの収集 ・レポートに含まれる特徴的な文字列を複数抽出 ・AND・ORを用いた組み合わせ検索 漢字・英字・カタカナが連続する長い文字列 抽出例(ネットワーク関連の課題の例) 大容量イーサネット専用回線 ワンクリック料金請求 無線LANアクセスポイント ネットワーク敷設時 あらかじめ定めた論理演算式に適用 論理演算式の例 W1・W2・W3 , W1+W2+W3 など 剽窃元候補Webページの収集 ・既存の検索エンジンで検索+検索結果上位のURL取得 ・非対応フォーマットのファイル(PDF,Word形式等)の削除 ・Webアクセスによるページの取得

剽窃評価部 Σ n-gram による類似度評価 これは計算機です これは 1 れは計 は計算 計算機 算機で 機です 文章 3-gram 出現回数 これは計算機です n-gram による類似度評価 これは 1 れは計 は計算 計算機 算機で 機です ・文章を n文字の列 に分解 ・出現頻度の分布により評価 改変の影響が少ない評価指標 レポート間:母集団はレポート間で共通の n-gram ↓ 修正 Web・レポート間:母集団はレポート内の n-gram レポート全体のn-gramがどの程度Webページに含まれるか評価 評価式 R = 1- 1 K Σ i = 1 P (X i ) -Q (X i ) P (X i ) +Q (X i ) 2 K :レポート内のn-gram数 Xi :レポート内の各n-gram P(Xi) :レポートでの出現頻度 Q(Xi) :Webページでの出現頻度

剽窃候補Webページのランク付け 全剽窃候補Webページに評価値を付与 評価の高い順にソートして提示 剽窃元候補Webページ レポート 評価 XXX 剽窃元候補 1: http://XXX 2: http://YYY 3: http://ZZZ : 0.77 WWW 0.18 YYY 0.35 ZZZ 0.23 全剽窃候補Webページに評価値を付与 評価の高い順にソートして提示

視覚表示部 Webページに一定の長さ以上一致する文字列が 存在する部分をマーク 剽窃候補Webページ レポート (1) マッチ可能な (2) 一定の長さ以上ならマーク ・・・ついて考えましょう. 一般にコンピュータは 電子計算機と呼ばれ ます.電気で計算を する機械のことですが 現在使われているコン ピュータは電卓など・・・ コンピュータは電子 計算機のことであり, ・・・ついて考えましょう. 一般にコンピュータは 電子計算機と呼ばれ ます.電気で計算を する機械のことですが 現在使われているコン ピュータは電卓など・・・ コンピュータは電子 計算機のことであり, 電気で計算をする 機械ではあるが, : (3) 次の文字に着目して同様の作業を繰り返す (一定の長さ以下なら1文字ずらす) (1) マッチ可能な 文字列の最大の 長さを調べる

システムの実装例 開発言語 PHP 動作環境 Apache+PHP (Web上で動作可)

システムの動作 レポートファイルの選択 開始ボタンのクリック

システムの動作 剽窃元と疑われる ページのURL 評価値 視覚表示機能の呼び出し

評価値0.77 評価値0.13

評価実験 目的 手作業 主観的評価 による剽窃検査との比較 実験対象 福井大学・知能システム工学科の授業 課題1: 学年:大学1年生 字数制限:200字以上 テーマ: 「CRTと液晶以外にはどのような表示装置があるか調査せよ」 件数:46件 課題2: 学年:大学3年生 字数制限:1000字以上 「イーサネットの現状と今後」 件数:53件

手作業・主観による調査の方法 レポートを3つに分類 本システムにより検出された最も剽窃元の可能性が 高いWebページの評価値と比較 (1)調査者の主観で検索キーワードを想定 20分程度の調査 (2)調査者の主観で疑わしいと思われるもの 1時間程度の調査 (3)調査者の主観で剽窃の程度を判定 半分以上剽窃と思われる→剽窃レポートとみなす レポートを3つに分類 剽窃レポート :剽窃と判断されたレポート 非剽窃レポート :剽窃と判断されなかったレポート 文献明記レポート:本文中に引用が明記されているレポート 本システムにより検出された最も剽窃元の可能性が 高いWebページの評価値と比較

結果:課題1 ×剽窃レポート ○非剽窃レポート △文献明記 26件 20件 0件 0.5 0.4 0.3 評 0.2 価 値 0.1 0 5 10 15 20 25 30 35 40 45 レポート番号(昇順にソート)

結果:課題2 ×剽窃レポート ○非剽窃レポート △文献引用 29件 22件 2件 1.0 0.8 0.6 0.4 評 価 0.2 値 0.0 0 5 10 15 20 25 30 35 40 45 50 レポート番号(昇順にソート)

考察 剽窃レポート発見支援に有効 特に複数のページからの剽窃への対応が重要! 手作業・主観による判定 本システムの結果 剽窃レポート → 高い評価値に集中 非剽窃レポート → 低い評価値に集中 剽窃レポート発見支援に有効 評価値が低い剽窃レポート ・Web側が画像やPDF形式のデータであったケース ・レポート中の誤字により,検索ワードに誤字が含まれるケース →検索ワード生成方法の検討 ・複数のWebページから数行ずつコピーしたケース →複数のWebページとレポートとの評価手法の検討 評価値が中程度の剽窃レポート ・複数のWebページからコピーしたケース 特に複数のページからの剽窃への対応が重要!

まとめ 今後の課題 Webページからの剽窃レポートの発見支援 →支援の可能性を示唆 手法の改良 ・複数のWebページからのコピーへの対応 枠組みの検討とシステムの設計 ・Web検索エンジンの利用 ・類似度評価手法の応用 実装・評価 → 手作業・主観的評価とほぼ一致 →支援の可能性を示唆 今後の課題 手法の改良 ・複数のWebページからのコピーへの対応 ・検索ワード作成手法の再検討 複数のレポートの一括チェック手法の検討

おわり

使用した論理演算式 3つの単語のANDとOR ・等価な論理式でも書き方によって異なる結果が出る w1 w2 w3 w1+w2+w3 (w1+w2)w3 +(w2+w3)w1+(w3+w1)w2 (w1w2+w3)+(w2w3+w1)+(w3w1+w2) ・等価な論理式でも書き方によって異なる結果が出る (w1+w2 と w2+w1で結果が変わることがある) ・同じ論理式でも検索時間帯によって異なる結果が出る (例えば「グーグルダンス」と呼ばれる現象など) 厳密な検討はあまり意味がない →検索できそうな組み合わせを経験的に用意

シミュレーション実験(1) 目的 Webページの機械的な改変によるレポート →本手法で剽窃元の発見が可能か? 実験方法 ・下記の方法に従って20テーマのレポート(80件)を作成 (1) 末尾の「です・ます調」「だ・である調」を相互変換 (2)行数の入れ替え (3)行の削除 (4)複数ページの混合(剽窃元の25%を別ページへ置き換え) ・本システムを用いて下記を調査 (A) 評価結果のうち,剽窃元Webページの順位 (B) 剽窃元Webページの評価値

擬似剽窃レポートの調査結果 改変項目 順位 評価値 (1)文末変換 3.50 ± 2.14 0.983 (2)順序変更 4.85 ± 2.43 0.956 (3)文章削除 3.55 ± 1.82 0.961 (4)複数混合 3.35 ± 2.23 0.794 ※剽窃元を検索できないレポートは存在しなかった. 順位が1位にならないケースの原因 ・同種の文章が載っている異なるWebページ

擬似剽窃レポートの評価値

シミュレーション実験(2) 目的 オリジナルと思われる文章 →本手法で剽窃でないという判断が可能か? 実験方法 論文誌や研究報告:Webからの剽窃でないとみなす →高い評価値のWebページが出てこないことの確認 ・論文誌の序論200字程度を抽出した文書を20件を作成 (先頭から200文字以上の最初の句点までを使う) ・本システムの評価結果のうち評価値が最大のものを調査 結果 評価値の平均 0.218

論文誌から抽出した文章の評価値

シミュレーション実験の結果 機械的なWebページの改変 論文誌の序論 0.7以上に集中 0.3程度以下に集中

考察 Webページの改変によるレポート 論文誌の序論 全て検索可+高評価値 低評価値 Webからの剽窃発見支援に有効 複数のWebページからの混合 →割合に応じて評価値が低下 複数のページからの剽窃への対応が必要

Webからの剽窃手順とその発見方法 Webページ Webページ 剽窃元候補 Webページ Web検索エンジン 検索キーワード生成 剽窃の判定 検 索 キ | ワ ド 剽窃元 Web ページ レポート課題 レポート 剽窃 剽窃個所の特定 レポート 学習者 剽窃 教師