発表32 レポート評価支援について (剽窃部分と指導箇所の検出) NLP若手の会 第3回シンポジウム 発表32 レポート評価支援について (剽窃部分と指導箇所の検出) 2008/9/23 峯脇 さやか 弓削商船高等専門学校 情報工学科
研究の目的 大学生・高専生のレポートはコピペが多い 情報技術の発展 ネット上の記述をコピペすることに,意識が低い 学生への教育が不十分 ネット上には,多種多様な記述が存在 マウスを使うだけで,コピペ完了 ネット上の記述をコピペすることに,意識が低い 盗用(=犯罪)であることを知らない 著作権についてよく知らない 学生への教育が不十分 コピペさせない指導とは? “いたちごっこ”のような気も・・・ 安易にコピペすることにより,文を書く力が向上しない
研究の目的 教員にとって,レポートチェックはとても大変 レポート評価を支援するソフトがあると,とても便利 1つ1つ手作業でチェックする 時間も労力もかかる コピペレポートをチェックしてもむなしい レポート評価を支援するソフトがあると,とても便利
レポート評価支援 剽窃部分の検出 指導箇所の検出 どの部分がコピペか自動検出 類似度計算 Web検索 他者から/ネットから 類似度計算 Web検索 指導箇所の検出 模範解答を用いて,課題にあった回答かどうかチェック 文章校正 誤字脱字 表記ゆれ …など
本研究の立場 レポート = 自由記述文 教師のレポート評価を支援しようという立場 実験のレポート 授業での課題 e-Learningで使えれば,出題の幅が広がる 現在は,多肢選択式がほとんど 教師のレポート評価を支援しようという立場 全ての評価を自動で行うという立場ではない 評価は教師がすべきものであって,支援ソフトなどの使い方は,その教師次第
先行研究 「コピペ」を発見するソフト/杉光 内容の独自性を視覚化するレポート評価支援システム/川口,砂山[2007] ネット上に類似する文章があるか検索 2009年中に市販予定 内容の独自性を視覚化するレポート評価支援システム/川口,砂山[2007] オリジナリティで評価 ニューラルネットワークを用いた実習レポート評価支援システムの開発 /渡辺[2008] 1対比較法とTF・IDF法でコピーレポート判定 理解度チェック単語数で考察の評価
剽窃部分の検出 剽窃とは 剽窃部分 = コピペされた部分 他人の作品・学説などを自分のものとして発表すること(goo辞書より) いわゆる「パクリ」 引用との違い 引用は,自説を補強するためのもの 剽窃部分 = コピペされた部分
剽窃部分の検出 コピペの傾向 他学生からのコピペ ネットからのコピペ ある1学生から 複数の学生から良い所取り ある1つのサイトから 同級生 上級生(過去の合格レポート) 複数の学生から良い所取り ネットからのコピペ ある1つのサイトから 複数のサイトから
他学生からのコピペ検出 1文ごとに類似度を計算する 依存構造木を用いたテキスト間の類似度計算 共通の単語を持つときのみ計算 依存構造木 ノード:文節 リンク:係り受け関係 類似度 ≒ 共通部分木の数 正規化
他学生からのコピペ検出 類似度が大きいものの密度を調べる 似ている文が連続している場合 似ている文が分散している場合 レポートA 文1 文2 文3 文4 文5 ・・・ レポートB レポートBの文2~文5は レポートAの文1~文4を コピペした可能性が高い レポートC 文1 文2 文3 文4 文5 ・・・ レポートA 似ている文が分散している場合 コピペしたと判断するのは・・・?
ネットからのコピペの検出 Googleで文をレポート中の文を1文ずつ検索 検索キーを文字コードに変換&URL生成 Unicode(UTF-8) http://www.google.co.jp/search?hl=ja &q=%E5%AE%9A%E5%9E%8B%E5%8C%96 ... &lr=&aq=f&oq= 定 型 化 Unicode(UTF-8) 定:0xE5AE9A 型:0xE59E8B 化:0xE58C96
ネットからのコピペ検出 検索結果ページ(HTML)を取得 ソースを解析 emタグで囲まれている (文字を強調する)
指導箇所の検出 模範解答を用いて,課題にあった回答かどうかチェック 模範解答との文書間類似度を計算 模範解答とは ベクトル空間モデル 教師が作成したもの 過去の合格レポート
指導箇所の検出 文章校正 誤字脱字 表記ゆれ 文末表現 字数 ○:「~である」 ×:「~です」 (字数指定がある場合)クリアしているか? 少なすぎないか?(説明が不十分) 多すぎないか?(冗長)
まとめ レポート評価支援 剽窃部分の検出 指導箇所の検出 蔓延するコピペを少しでもなくす レポートチェックにかかる教師の手間を軽減 学生間のコピペは,テキスト間類似度を使用 ネットからのコピペは,Googleで検索&結果ページを解析 指導箇所の検出 模範解答との類似度を計算
学生への指導 コピペさせない教育をどのようにするか? 著作権についての教育 コピペが発覚したら減点する? “いたちごっこ”にならないようにするには? 著作権についての教育 著作物とは コピペ = 著作物の盗用(犯罪) 著作権法第32条に“引用”について記述 参考:『引用』と『盗用』の境界線 http://yaplog.jp/momo_shiro/archive/149