精度、再現率 順位付き評価 学習と評価 評価者の一致性の評価

Slides:



Advertisements
Similar presentations
ゲームプログラミング講習 第2章 関数の使い方
Advertisements

サービス管理責任者等研修テキスト 分野別講義    「アセスメントと        支援提供の基本姿勢」 <児童発達支援管理責任者> 平成27年10月1日.
ヒトの思考プロセスの解明を目的とするワーキングメモリの研究
第27講 オームの法則 電気抵抗の役割について知る オームの法則を使えるようにする 抵抗の温度変化を理解する 教科書P.223~226
コラッツ予想の変形について 東邦大学 理学部 情報科 白柳研究室 山中 陽子.
コンパイラ 第3回 字句解析 ― 決定性有限オートマトンの導出 ―
第5章 家計に関する統計 ー 経済統計 ー.
公共財 公共経済論 II no.3 麻生良文.
VTX alignment D2 浅野秀光 2011年12月15日  放射線研ミーティング.
冷却フランシウム原子を用いた 電子の永久電気双極子能率探索のための ルビジウム磁力計の研究
生命情報学 (8) スケールフリーネットワーク
前半戦 「史上最強」風 札上げクイズ.

認知症を理解し 環境の重要性について考える
フッ化ナトリウムによる洗口 2010・9・13 宮崎市郡東諸県郡薬剤師会 学校薬剤師  日高 華代子.
食品の安全性に関わる社会システム:総括 健康弱者 ハイリスク集団 HACCP (食肉処理場・食品工場) 農場でのQAP 一般的衛生管理
規制改革とは? ○規制改革の目的は、経済の活性化と雇用の創出によって、   活力ある経済社会の実現を図ることにあります。
地域保健対策検討会 に関する私見(保健所のあり方)
公共政策大学院 鈴木一人 第8回 専門化する政治 公共政策大学院 鈴木一人
医薬品ネット販売規制について 2012年5月31日 ケンコーコム株式会社.
平成26年8月27日(水) 大阪府 健康医療部 薬務課 医療機器グループ
平成26年度 呼吸器学会からの提案結果 (オレンジ色の部分が承認された提案) 新規提案 既収載の変更 免疫組織化学染色、免疫細胞化学染色
エナジードリンクの危険性 2015年6月23日 経営学部市場戦略学科MR3195稲沢珠依.
自動吸引は 在宅を変えるか 大分協和病院 院長         山本 真.
毎月レポート ビジネスの情報 (2016年7月号).
医療の歴史と将来 医療と医薬品産業 個人的経験 3. 「これからの医療を考える」 (1)医薬品の研究開発 -タクロリムスの歴史-
社会福祉調査論 第4講 2.社会調査の概要 11月2日.
2015年12月28日-2016年3月28日 掲載分.
2010度 民事訴訟法講義 補論 関西大学法学部教授 栗田 隆.
腫瘍学概論 埼玉医科大学国際医療センター 包括的がんセンター 緩和医療科/緩和ケアチーム 奈良林 至
“企業リスクへの考え方に変化を求められています。 トータルなリスクマネジメント・サービスをプロデュースします。“
情報漏えい 経済情報学科 E  西村 諭 E  釣 洋平.
金融班(ミクロ).
第11回 2009年12月16日 今日の資料=A4・4枚+解答用紙 期末試験:2月3日(水)N2教室
【ABL用語集】(あいうえお順) No 用語 解説 12 公正市場価格 13 債権 14 指名債権 15 事業収益資産 16 集合動産 17
基礎理論(3) 情報の非対称性と逆選択 公共政策論II No.3 麻生良文.
浜中 健児 昭和42年3月27日生まれ 東京都在住 株式会社ピー・アール・エフ 代表取締役 (学歴) 高 校:千葉県立東葛飾高校 卒業
COPYRIGHT(C) 2011 KYUSHU UNIVERSITY. ALL RIGHTS RESERVED
Blosxom による CMS 構築と SEO テクニック
記入例 JAWS DAYS 2015 – JOB BOARD 会社名 採用職種 営業職/技術職/その他( ) 仕事内容 待遇 募集数
ネットビジネスの 企業と特性 MR1127 まさ.
Future Technology活用による業務改革
ネットビジネス論(杉浦) 第8回 ネットビジネスと情報技術.
g741001 長谷川 嵩 g740796 迫村 光秋 g741000 西田 健太郎 g741147 小井出 真聡
自然独占 公共経済論 II no.5 麻生良文.
Autonomic Resource Provisioning for Cloud-Based Software
Webショップにおける webデザイン 12/6 08A1022 甲斐 広大.
物理的な位置情報を活用した仮想クラウドの構築
ハイブリッドクラウドを実現させるポイントと SCSKのOSSへの取組み
寺尾 敦 青山学院大学社会情報学部 第12回 情報デザイン(4) 情報の構造化と表現 寺尾 敦 青山学院大学社会情報学部
【1−1.開発計画 – 設計・開発計画】 システム開発計画にはシステム開発を効率的、効果的に実行する根拠(人員と経験、開発手順、開発・導入するシステム・アプリケーション・サービス等)を記述すること。 システム開発の開始から終了までの全体スケジュールを記載すること。 アプリケーション機能配置、ソフトウェア、インフラ構成、ネットワーク構成について概要を示すこと。
6 日本のコーポレート・ガバナンス 2008年度「企業論」 川端 望.
急成長する中国ソフトウェア産業 中国ソフトウェアと情報サービス産業の規模 総売上高は5年間で約5.3倍の成長
米国ユタ州LDS病院胸部心臓外科フェローの経験
公益社団法人日本青年会議所 関東地区埼玉ブロック協議会 JCの情熱(おもい)育成委員会 2011年度第1回全体委員会
次世代大学教育研究会のこれまでの活動 2005年度次世代大学教育研究大会 明治大学駿河台校舎リバティタワー9階1096教室
子どもの本の情報 大阪府内の協力書店の情報 こちらをクリック 大阪府内の公立図書館・図書室の情報
第2回産業調査 小島浩道.
〈起点〉を示す格助詞「を」と「から」の選択について
広東省民弁本科高校日語専業骨幹教師研修会 ①日本語の格助詞の使い分け ②動詞の自他受身の選択について   -日本語教育と中日カルチャーショックの観点から- 名古屋大学 杉村 泰.
■5Ahバッテリー使用報告 事例紹介/東【その1】 ■iphon4S(晴れの昼間/AM8-PM3) ◆約1時間で68%⇒100%
『ワタシが!!』『地域の仲間で!!』 市民が始める自然エネルギー!!
ポイントカードの未来形を形にした「MUJI Passport」
SAP NetWeaver を支える Microsoft テクノロジーの全貌 (Appendix)
ガイダンス(内業) 測量学実習 第1回.
Python超入門 久保 幹雄 東京海洋大学.
熱力学の基礎 丸山 茂夫 東京大学大学院 工学系研究科 機械工学専攻
京都民医連中央病院 CHDF学習推進委員会
資料2-④ ④下水道.
Accessによる SQLの操作 ~実際にテーブルを操作してみよう!~.
Presentation transcript:

精度、再現率 順位付き評価 学習と評価 評価者の一致性の評価 クラシックな機械学習の入門 11.評価方法 精度、再現率 順位付き評価 学習と評価 評価者の一致性の評価 by 中川裕志(東京大学)

教師あり学習の評価 予測値の決め方 機械学習の結果の予測器によって  xが正解(1)である確率が閾値θthより大きければ予測値  𝑦 =+1 小さければ  𝑦 =ー1 となる。 ここで、閾値への予測値の依存性に注意

一般的なデータ処理結果の状態 TN(True Negative) TP FN (True FP (False Positive) 処理sで結果のデータ集合が得られた。しかし、結果の中には間違いもあるし、得られなかったデータの中にも正解がありうる。 データ集合全体{x} TN(True Negative) 正解データの集合 𝑦 =1の データ集合 TP (True Positive) FN (False Negative) FP (False positive)

性能評価尺度 再現率 適合率あるいは精度 フォールアウト 一般性 Accuracy or   Rand Index

再現率 vs 精度 よく使う評価の表現法 1.0 精度 再現率100%の自明なシステム?? 0.0 0 0.5 1.0 再現率

再現率 vs 精度に関連した尺度 Break even point 再現率と精度が一致する点 再現率 vs 精度に関連した尺度 Break even point   再現率と精度が一致する点 11点平均精度 再現率=0.0 , 0.1, 0.2, ….. 0.9, 1.0 の11点における精度の平均値 F値  ただし、bは精度が再現率よりどれだけ重視されているかを示すパラメタ― b=1がよく使われる。

ROCとAUC 𝑇𝑃 𝑇𝑃+𝐹𝑁 ROC曲線 ROC曲線の下の部分の面積が AUC(Area Under Curve) 𝐹𝑃 𝐹𝑃+𝑇𝑁

理想的な場合(表1.2) θth=a: TPR=1/4 FPR=0 θth=b: TPR=4/4 θth=c: TPR=4/4   : 正解   : 不正解 θth=a: TPR=1/4 FPR=0 θth=b: TPR=4/4 θth=c: TPR=4/4 FPR=3/4

現実的な場合(表1.3) θth=a: TPR=1/4 FPR=0 θth=b: TPR=2/4 FPR=2/4   : 正解   : 不正解 θth=a: TPR=1/4 FPR=0 θth=b: TPR=2/4 FPR=2/4 θth=c: TPR=4/4 FPR=3/4

順位つき結果の評価 単純な識別では結果は全て同等 生成モデルの場合は、結果が適合性のよい順番に並ぶ。(表示も適合順) この場合の評価法について

Recall , Precision 処理qに適合する結果(以下、正解、という)の数: |Dq | 処理システムの順位つけられた結果:  (d1…….dn) di が処理qへの正解なら ri=1、 そうでなければ ri=0   とする。すると、 第k順位まで拾ったときの

平均適合率:average precision 例: 順位 正解か 1 〇 2 3 4 5 6

平均逆順位:Mean Reciprocal Rank(MRR) 例 順位 正解か 第1問 第2問 1 〇 2 3 4

nDCG DCG(Discounted Cumulative Gain) 結果には関連度(relevancy):Rが与えられている。Rは適当な範囲の数値 順位i番目の結果の関連度をRiとする p位までの結果に対するCG(Cumulative Gain): CGpに順位が低いものに関連度Rの高いものが現れた場合のペナルティを考慮したのがDCGp

DCGはRiの決め方や関数fiの定義に強く依存 そこで理想的な場合のDCG(=IDCG)と実際の結果に対するDCGの比を使う nDCG

DCG,nDCGの例 結果: R1=4, R2=1, R3=4, R4=2, R5=1 log23=1.58, log24=2, log25=2.32 DCG5=4+1+4/1.58+2/2+1/2.32=8.96 IDCG5=4+4+2/1.58+1/2+1/2.32=10.70 nDCG5=8.96/10.70=0.83 もし、結果が関連度Rの大きい順に並んでいれば、DCG=IDCGだから nDCG=1 もし、結果が逆順なら(1,1,2,4,4)   DCG5=1+1+2/1.58+4/2+4/2.32=6.98  IDCG5=6.98/10.70=0.65

学習と評価(教師ありの場合) 正解データがある場合。 正解データ全部を教師データとして機械学習。学習結果のシステムをs s を教師データで評価 s を未知のデータで評価 本当は、未知データでの評価をしたいが、なにしろ未知 正解データを教師データとテストデータに分割 教師データで学習し、テストデータを未知データとみなして評価 正解データが少ない場合:N-fold cross validation(N-交差検定) 正解データをN等分。N-1個を教師データとして学習し、残りの1個で評価。これをN種類繰り返す。 特殊なケースとして、1個だけを除いて学習し、その1個で評価。これをデータ数繰り返す。Leave-one-out法

教師なしの場合 クラスタリングの場合 正解データが存在しない場合 人手で正解データを作っておき、教師あり学習と同じような評価。 一応、再現率も計測できる。 正解データが存在しない場合 学習結果をサンプリングして、人手で評価するしかない。 再現率は評価できない。

クラスタリングの評価:Purity 生成されたクラスタがどれだけ多数派で占められているかを表す尺度

1 2 3 local purity global purity 問題点 何もしない場合 全データが同一クラスタ 1クラスタが1データ

Inverse Purity 1クラスタに1個のデータしかない場合も Inverse Purityは1より小さい。 真のクラスjのデータ総数 1クラスタに1個のデータしかない場合も Inverse Purityは1より小さい。 そこでPurityとの調和平均であるF値で評価

1 2 3               8個、  7個、  10個 

評価者の一致性の評価 κ計数 κ計数が1に近いほど評価者1,2の評価が一致している(評価行列が対角の場合) ある事象集合に対し 評価者2 評価者1 C1 … CN Σ p11 p1N P1. : pN1 pNN pN. p.1 p.N 1 κ計数 ある事象集合に対し て評価がC1からCNの N種類。評価者1,2が 各々評価点i,jをつける確率がpij κ計数が1に近いほど評価者1,2の評価が一致している(評価行列が対角の場合)

例 評価者2 評価者1 0 1 Σ 0.6 0.6 0.4 0.4 1 評価者2 評価者1 0 1 Σ 0.25 0.25 0.5 1

テストコレクション (a) 入力データ集合、(b) 解くべき問題(識別など)、(c)問題において<入力データ、推測結果>対の集合、を組にしたデータベースをテストコレクションと呼び、機械学習システムの性能評価において必須の資源である ある入力データに対応する推定結果の個数が多いような問題(例えば、情報検索)では、 <入力データ、推測結果>の大規模な集合を作ることは大規模テストコレクションでは困難 Pooling method:、 同一の入力データ集合に対して、多数のシステムで同じ問題に対して出した上位N 個の結果を全て集める。N の値として、100 程度が多い。この結果に対してのみその適合性を人手で判断し、それを正解の集合とする