理学系研究科　情報科学専攻データベース特論 II １０：１５－１２：１５新領域創成科学研究科　複雑理工学専攻複雑計算論

Slides:

Advertisements

Similar presentations

©2008 Ikuo Tahara探索状態空間と探索木基本的な探索アルゴリズム横形探索と縦形探索評価関数を利用した探索アルゴリズム分岐限定法山登り法最良優先探索 A （ A* ）アルゴリズム.

Advertisements

『わかりやすいパターン認識』第 5 章特徴の評価とベイズ誤り確率 5.4 ベイズ誤り確率と最近傍決定則発表日： 5 月 23 日（金）発表者：時田陽一.

第 5 章 2 次元モデル Chapter 5 2-dimensional model. Contents 1.2 次元モデル 2-dimensional model 2. 弱形式 Weak form 3.FEM 近似 FEM approximation 4. まとめ Summary.

遺伝的アルゴリズムにおけるランドスケープによる問題のクラス分類

「わかりやすいパターン認識」第１章：パターン認識とは

データ構造とアルゴリズム第十二回知能情報学部知能情報学科新田直也.

Data Clustering: A Review

ラベル付き区間グラフを列挙するBDDとその応用

近似アルゴリズム第１０章終了時刻最小化スケジューリング

Finger patternのブロック化による陰的wavelet近似逆行列前処理の高速化

知能システム論ー　アソシエーションルール　－.

多数の疑似システムを用いたシステム同定の統計力学三好誠司岡田真人神戸高専東大，理研

Approximation of k-Set Cover by Semi-Local Optimization

AllReduce アルゴリズムによる QR 分解の精度について

Object Group ANalizer Graduate School of Information Science and Technology, Osaka University OGAN visualizes representative interactions between a pair.

整数計画法を用いたペグソリティアの解法 ver. 2.1

マイクロシミュレーションにおける可変属性セル問題と解法

Tohoku University Kyo Tsukada

メソッド名とその周辺の識別子の相関ルールに基づくメソッド名変更支援手法

Licensing information

論理回路第7回

論理回路第8回

プログラミング基礎ａ第８回プログラムの設計アルゴリズムとデータ構造

Classification Problem

Classification Problem

クラス分類問題 (Classification)

2018/11/19 The Recent Results of (Pseudo-)Scalar Mesons/Glueballs at BES2 XU Guofa J/ Group IHEP,Beijing 2018/11/19 《全国第七届高能物理年会》《全国第七届高能物理年会》

芝野耕司 ISO/IEC JTC1/SC2 (Coded Character Sets)委員長東京外国語大学

点素パス問題に対するアルゴリズム小林佑輔東京大学大学院情報理工学系研究科組合せ最適化セミナー 2012 年 7月 13日

正規分布におけるベーテ近似の解析解と数値解東京工業大学総合理工学研究科知能システム科学専攻　渡辺研究室　　　西山　悠，　渡辺澄夫.

決定木とランダムフォレスト和田　俊和.

定兼邦彦今井浩東京大学理学系研究科情報科学専攻

モデルの逆解析明治大学理工学部応用化学科データ化学工学研究室金子弘昌.

情報理工学系研究科数理情報学専攻数理第四研究室博士三年指導教員：駒木文保准教授鈴木大慈 2008年8月14日

第14章　モデルの結合修士２年山川佳洋.

訓練データとテストデータが異なる分布に従う場合の学習

Where is Wumpus Propositional logic (cont…) Reasoning where is wumpus

Anja von Heydebreck et al. 発表：上嶋裕樹

東北大学大学院情報科学研究科応用情報科学専攻田中和之(Kazuyuki Tanaka)

市場調査の手順問題の設定調査方法の決定データ収集方法の決定データ収集の実行データ分析と解釈報告書の作成標本デザイン、データ収集

決定木 Decision Tree DT 明治大学理工学部応用化学科データ化学工学研究室金子弘昌.

アルゴリズム理論的なデータ近似へのアプローチとデータマイニング

GPGPUによる飽和高価値アイテム集合マイニング

プログラミング基礎ａ第８回プログラムの設計アルゴリズムとデータ構造

不確実データベースからの負の相関ルールの抽出

First Course in Combinatorial Optimization

サポートベクターマシンを用いたタンパク質スレッディングのためのスコア関数の学習情報科学科4年 81025G 蓬来祐一郎.

22 物理パラメータに陽に依存する補償器を用いた低剛性二慣性系の速度制御実験高山誠指導教員小林泰秀

2019/4/22 Warm-up ※Warm-up 1～3には、小学校外国語活動「アルファベットを探そう」（H26年度、神埼小学校におけるSTの授業実践）で、５年生が撮影した写真を使用しています（授業者より使用許諾済）。

生物情報ソフトウェア特論（２）たたみ込みとハッシュに基づくマッチング

「データ学習アルゴリズム」第3章複雑な学習モデル報告者佐々木稔 2003年6月25日 3.1 関数近似モデル

Data Clustering: A Review

Data Clustering: A Review

ー生命倫理の授業を通して生徒の意識に何が生じたかー

東北大情報科学田中和之,吉池紀子山口大工庄野逸理化学研究所岡田真人

第9章学習アルゴリズムとベイズ決定側〔3〕最小2乗法とベイズ決定側発表：2003年7月4日時田陽一

``Exponentiated Gradient Algorithms for Log-Linear Structured Prediction’’ A.Globerson, T.Y.Koo, X.Carreras, M.Collins を読んで渡辺一帆（東大・新領域）

データマイニングアルゴリズム「アプリオリ」と「ＩＤ３」の比較

ガウス分布におけるベーテ近似の理論解析東京工業大学総合理工学研究科知能システム科学専攻　渡辺研究室　　　西山　悠，　渡辺澄夫.

パターン認識特論 ADA Boosting.

発表者: 稲葉一浩複雑ネットワーク・地図グラフセミナー 2017/1/19

パターン認識特論 ADA Boosting.

卒業研究 Treedecompositionを生成するヒューリスティックアルゴリズムの幅に関する評価実験

卒業研究木分解ヒューリスティックアルゴリズムの性能評価実験～アルゴリズムの改良の考察とそのプログラム作成～

情報生命科学特別講義III （３）たたみ込みとハッシュに基づくマッチング

ガウシアングラフィカルモデルにおける一般化された確率伝搬法

点素パス問題に対するアルゴリズム小林佑輔東京大学大学院情報理工学系研究科組合せ最適化セミナー 2012 年 7月 13日

アノテーションガイドラインの管理を行うアノテーションシステムの提案

Improving Strategic Play in Shogi by Using Move Sequence Trees

グラフの帯域幅連続多重彩色を求めるアルゴリズム (Bandwidth Consective Multicolorings of Graphs) 西関研究室西川和秀.

Presentation transcript:

理学系研究科　情報科学専攻データベース特論 II １０：１５－１２：１５新領域創成科学研究科　複雑理工学専攻複雑計算論１０：１５－１１：５５オリエンテーション森下　真一

データマイニング　理論　アルゴリズム　実装　応用

市場のニーズ技術的シーズ大規模生データの存在データ読取装置の普及記憶装置の低価格化検索可能状態プロセッサーの高速化数ギガ～テラの生データＰＯＳデータ顧客データ受注データ　等データ読取装置の普及バーコードクレジットカードＯＣＲ記憶装置の低価格化検索可能状態　（大福帳システム　　　Data Warehouse）プロセッサーの高速化並列計算機の商用化関係ＤＢの普及多次元的問合せ OLAP 検索･集計･チャート化経験的ルールの検証ルールの収集･発見（データマイニング）知識発見技術の高速化データベース問合せ最適化組合せ論的アルゴリズム並列処理商品間関連　危険度分析顧客分類ゲノム情報　検索エンジン発見科学

Association Rules

定期口座有無＝Ｎｏ ⇒ カードローン延滞有無＝ＹｅｓサポートＰｒ(XかつY) 例５％確信度Ｐｒ(Y|X) 例３２％当座取引有無定期口座有無血液型職業コードカードローン延滞有無結合ルールＸ ⇒ Ｙ定期口座有無＝Ｎｏ ⇒ カードローン延滞有無＝ＹｅｓサポートＰｒ(XかつY) 例５％確信度Ｐｒ(Y|X) 例３２％閾値を設け、上回るルールを “interesting” と考える Interesting Rules を枚挙したい観察 B ⇒ C が interesting Ｐｒ(BC) は閾値以上Ｐｒ(B) とＰｒ(C) も閾値以上

HIC Provides A Healthier Future With IBM 成功例 IBM data warehousing and data mining technologies are enabling the Health Insurance Commission (HIC) to save the Australian healthcare systems tens of millions of dollars a year. The HIC is a Federal Government agency which processes claims for Medicare, Medibank Private and the Pharmaceutical Benefits and Child Care Programs. Every year, it deals with 300 million transactions and pays out eight billion dollars worth of funds. Healthcare systems around the world are attempting to find ways to reduce the millions of taxpayers' dollars which are wasted by fraud and the inappropriate use of medical tests and services. The HIC, together with IBM has implemented a world-leading data mining solution, which analyzes data and detects unnecessary prescriptions or referrals by medical practitioners then intervene to reduce the incidence. http://www.software.ibm.com/data/intelli-mine/applbrief.html HIC Provides A Healthier Future With IBM オーストラリア健康保険委員会年間数千万ドルの節約に成功開業医が不必要な処方箋を出すケースを見つけ出す規則の発見

φ A B C D AB AC BC AD BD CD ABC ABD ACD BCD ABCD まずサポートが閾値以上の条件集合（大きい条件集合）を枚挙条件数が少ない集合から徐々にサポートを計算条件集合｛A,B,C｝をＡＢＣと簡略に記述

Ｐｒ（Ｃ|Ｂ）＝Ｐｒ(BC)／Ｐｒ(B) ABCD まずサポートが閾値以上の条件集合（大きい条件集合）を枚挙条件数が少ない集合から徐々にサポートを計算枝狩り：Ｐｒ(AB) < 閾値 ⇒ Ｐｒ(ABC) < 閾値ルール B ⇒ C は確信度Ｐｒ（Ｃ|Ｂ）＝Ｐｒ(BC)／Ｐｒ(B) が閾値以上のとき生成 ABC ABD ACD BCD AB AC BC AD BD CD A B C D φ A Ｐｒ（Ａ）≧閾値ＡＢＰｒ（ＡＢ）＜閾値

ACDE サポート計算の効率化各レコードが満たす条件集合を見つけ、サポートを増加大きい条件集合の候補を枚挙 AB AC AD AE BC BD BE CD CE DE ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE 各レコードが満たす条件集合を見つけ、サポートを増加 ACDE

ACDE サポート計算の効率化各レコードが満たす条件集合を見つけ、サポートを増加大きい条件集合の候補を枚挙 AB AC AD AE BC BD BE CD CE DE ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE 各レコードが満たす条件集合を見つけ、サポートを増加 ACDE A B B D C D D E ABD ABE ADE BCE BDE Hash table

ACDE サポート計算の効率化各レコードが満たす条件集合を見つけ、サポートを増加大きい条件集合の候補を枚挙 AB AC AD AE BC BD BE CD CE DE ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE 各レコードが満たす条件集合を見つけ、サポートを増加 ACDE A B B D C D D E ABD ABE ADE BCE BDE Hash table

ABDE サポート計算の効率化各レコードが満たす条件集合を見つけ、サポートを増加大きい条件集合の候補を枚挙 AB AC AD AE BC BE CD CE DE ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE 各レコードが満たす条件集合を見つけ、サポートを増加 ABDE A B B D C D D E ABD ABE ADE BCE BDE Hash table

条件集合の枝狩りの効率化データベースの走査回数を減らせないか？ φ A B C D AB AC BC AD BD CD ABC ABD ACD BCD ABCD 例サポートの閾値が５％のとき

条件集合の枝狩りの効率化 ABCD ABC ABD ACD BCD AB AC BC AD BD CD A B C D φ A 当確当選サイズ１の条件集合の計算を開始 A 当確当選落選出馬

ABCD ABC ABD ACD BCD AB AC BC AD BD CD A B C D φ A 当確当選落選出馬サイズ２を開始 A B C D 読込済 φ サイズ１の条件集合の計算を開始 A 当確当選落選出馬

ABCD ABC ABD ACD BCD AB AC BC AD BD CD A B C D φ A 当確当選落選出馬サイズ３読込済サイズ３を開始 AB AC BC AD BD CD サイズ２を開始 A B C D φ A 当確当選落選出馬

ABCD ABC ABD ACD BCD AB AC BC AD BD CD A B C D φ A 当確当選落選出馬サイズ１のサポート計算終了読込済 ABC ABD ACD BCD サイズ３を開始 AB AC BC AD BD CD サイズ２を開始 A B C D φ A 当確当選落選出馬

ABCD ABC ABD ACD BCD AB AC BC AD BD CD A B C D φ A 当確当選落選出馬サイズ１のサポート計算終了 ABCD 第１回読込済 ABC ABD ACD BCD サイズ３も開始 AB AC BC AD BD CD サイズ２の計算終了 A B C D 読込済 φ サイズ１の条件集合のサポート計算を開始 A 当確当選落選出馬

A priori に比べ２０％から４倍の性能向上との報告されている ABCD サイズ１のサポート計算終了第１回読込済 ABC ABD ACD BCD 読込済サイズ３の計算終了 AB AC BC AD BD CD サイズ２の計算終了 A B C D φ サイズ１の条件集合のサポート計算を開始 A 当確当選落選出馬

預金残高∈Ｒ ⇒ クレジットカード＝Yes 預金残高Ｐｒ（預金残高∈Ｒ）≧１０％で確信度最大少しでも精度を上げたい

預金残高∈Ｒ ⇒ クレジットカード＝Yes 預金残高Ｐｒ（預金残高∈Ｒ）≧１０％で確信度最大少しでも精度を上げたい確信度８０％以上でＰｒ（預金残高∈Ｒ）最大

確信度預金残高∈Ｒ ⇒ クレジットカード＝Yes 入力：Ｐｒ(預金残高∈Ｒ) の閾値出力：確信度を最大化する区間Ｒ預金残高 X → （Ｐｒ(預金残高≦Ｘ) ，Ｐｒ(｛預金残高≦Ｘ，クレジットカード＝Yes｝) 確信度閾値

確信度預金残高∈Ｒ ⇒ クレジットカード＝Yes 入力：Ｐｒ(預金残高∈Ｒ) の閾値出力：確信度を最大化する区間Ｒ預金残高 X → （Ｐｒ(預金残高≦Ｘ) ，Ｐｒ(｛預金残高≦Ｘ，クレジットカード＝Yes｝) 確信度Ｒの候補 O(M log M) M: number of records

Clockwise Search

Counter Clockwise Search Clockwise, Counter Clockwise はともに、点を高々１回だけ走査する

（年齢,預金残高）∈Ｓ ⇒ カードローン延滞＝Yes

（年齢,預金残高）∈Ｓ ⇒ カードローン延滞＝Yes

（年齢,預金残高）∈Ｓ ⇒ カードローン延滞＝Yes

（年齢,預金残高）∈Ｓ ⇒ カードローン延滞＝Yes

領域族矩形領域Ｘ単調領域直交凸領域 p( (年齢,預金残高)∈Ｓ ) を「領域Ｓのサポート」最大確信度領域閾値以上のサポートをもち、確信度を最大にする領域Ｓ最大サポート領域閾値以上の確信度を導き、サポートを最大にする領域Ｓ

近似アルゴリズム（年齢,預金残高）∈ Ｓ ⇒ カードローン延滞＝Yes データ数 M, ピクセル数 n 領域族：矩形領域最大サポート・最大確信度領域を O(n1.5) で計算可能預金残高領域族：X単調領域または直交凸領域最大サポート・最大確信度領域を X単調はO(n M)、直交凸はO(n 1.5 M) で計算可能。 n と log M の多項式時間で計算することは P = NP でない限り不可能。年齢グリッド領域へ近似アルゴリズム

Ｓ（年齢,預金残高）∈ Ｓ ⇒ カードローン延滞＝Yes p( {年齢,預金残高）∈Ｓ, カードローン延滞＝Yes} ) 確信度 p( {年齢,預金残高）∈Ｓ, カードローン延滞＝Yes} ) p(（年齢,預金残高）∈Ｓ)

近似解Ｓ（年齢,預金残高）∈ Ｓ ⇒ カードローン延滞＝Yes p( {年齢,預金残高）∈Ｓ, カードローン延滞＝Yes} ) 確信度サポート値の閾値近似解 p( {年齢,預金残高）∈Ｓ, カードローン延滞＝Yes} ) p(（年齢,預金残高）∈Ｓ)

hand probing の回数はＯ(log Ｍ) サポート値の閾値確信度１２３凸閉包上の探索１回の hand probing のコストＸ単調領域Ｏ(ｎ) 直交凸領域Ｏ(ｎ1.5) hand probing の回数はＯ(log Ｍ)

ｙ =θｘ＋ a 切片ａの最大化各ピクセルに実数で表現される濃度濃度の和を最大化する領域を計算

ルールの評価－領域族別、メッシュ粒度別データを平面中に一様に生成ガードローン延滞となる確率を対角線からの距離に関して一様分布 10-fold Cross Validation

Classification

決定木入力データ例健康な人と心臓疾患の患者のデータ血圧心拍数中性脂肪肥満度ＧＰＴＧＯＴ心臓疾患

入力データ例健康な人と心臓疾患の患者のデータ決定木入力データ例健康な人と心臓疾患の患者のデータ血圧＜ 125 Yes No Yes No 領域分割血圧ＧＰＴ Yes 訓練データで木を生成評価基準：未知データでの予測精度動機：領域分割は予測精度向上に効くか？ No

決定木データ分割の評価方法正のデータ負のデータ

決定木データ分割の評価方法Ｑｕｉｎｌａｎのエントロピー最小化 n Ent1= - (p log p + q log q) Ent2 決定木データ分割の評価方法Ｑｕｉｎｌａｎのエントロピー最小化正のデータ負のデータ n Ent1= - (p log p + q log q) Ent2 n1 n2 ｐｑ n n1 Ent1 n n2 Ent2 +

ＳＳ中の正のデータ数Ｓ中のデータ数エントロピー関数は凸関数エントロピー最小の領域は凸包の境界上に存在 Hand Probing で探索単純な二分探索は困難（凸包上の全ての点のエントロピーが一致する例）Ｓ中の正のデータ数Ｓ中のデータ数

≧ ｍｉｎ（Ｅｎｔ（Ｘ），Ｅｎｔ（Ｙ），ＥＮＴ（Ｚ））Ｅｎｔ（三角形ＸＹＺ内の任意の点） ≧ ｍｉｎ（Ｅｎｔ（Ｘ），Ｅｎｔ（Ｙ），ＥＮＴ（Ｚ）） X Y ＺもしＥｎｔ（Ｚ）≧ 現時点の最小エントロピーならば枝狩りＢｒａｎｃｈａｎｄＢｏｕｎｄＳｅａｒｃｈ実用上はほぼ、Ｏ（ｌｏｇＭ）のＨａｎｄＰｒｏｂｉｎｇ

決定木性能評価ＵＣ Irvine, ＲｅｐｏｓｉｔｏｒｙｏｆＭａｃｈｉｎｅＬｅａｒｎｉｎｇｄａｔａｂａｓｅｓ http://www.ics.uci.edu/~mlearn/MLRepository.html 10-fold Cross Validation エラー率データベースﾚｺｰﾄﾞ数属性数ｸﾗｽ数Ｘ単調直交凸矩形二分割 balance scale 625 4 3 15.52 15.52 19.34 20.95 breast-cancer-wisc 699 9 2 5.01 4.15 4.58 5.72 german credit 1000 24 2 27.30 23.80 26.90 25.60 liver disorder 345 6 2 34.81 33.36 31.08 34.87 pima diabetes 768 8 2 24.47 25.12 23.69 26.82 segmentation 2310 19 7 4.81 4.37 4.89 4.50 vehicle 846 18 4 30.02 28.47 27.65 26.23 waveform 5000 20 3 21.74 20.98 22.36 22.74 waveform+noise 5000 40 3 22.54 21.32 22.94 24.36

回帰木 (Regression Tree) ＢＰＳＧＤＭＹＥＮＴＢ３ＭＴＢ３０Ｙ SP500 GOLD 1.443530 0.407460 0.004980 7.02 9.31 210.88 326.00 1.446120 0.408050 0.004950 7.04 9.28 205.96 339.45 : : : : : : :

ＹｅｓＮｏＮｏＹｅｓ

外Ｄ１Ｄ２領域中 μ１ μ２誤差二乗平均を最小化する領域

Σ Σ Ａ μ 外Ｄ１Ｄ２領域中 μ１ μ２（ｔ[Ａ]－μ１）２（ｔ[Ａ]－μ２）２誤差二乗平均の最小化＋ｔ∈Ｄ１ Σ （ｔ[Ａ]－μ２）２ｔ∈Ｄ２誤差二乗平均の最小化＋ | Ｄ１∪Ｄ２ | | Ｄ１ |（ μ －μ１）２＋｜Ｄ２ |（ μ －μ２）２クラス間分散の最大化 | Ｄ１∪Ｄ２ |

ＳＳ中データの目標属性の値の和Ｓ中のデータ数クラス間分散関数は凸関数クラス間分散最大の領域は凸包の境界上に存在 Hand Probing で探索単純な二分探索は困難ＢｒａｎｃｈａｎｄＢｏｕｎｄＳｅａｒｃｈで実用上はＯ（ｌｏｇＭ）Ｓ中データの目標属性の値の和Ｓ中のデータ数

回帰木性能評価 http://www.cs.utoronto.ca/~delve/data/datasets.html 10-fold Cross Validation 誤差二乗平均（予測前と後の比）データベースﾚｺｰﾄﾞ数属性数Ｘ単調直交凸矩形二分割 add10 9792 10 0.141 0.123 0.156 0.185 abalone 4177 8 0.521 0.515 0.534 0.539 kin-8fh 8192 8 0.447 0.433 0.459 0.479 kin-8fm 8192 8 0.225 0.197 0.257 0.249 kin-8nh 8192 8 0.649 0.618 0.619 0.655 kin-8nm 8192 8 0.494 0.449 0.478 0.541 pumadyn-kin-8fh 8192 8 0.412 0.402 0.409 0.410 pumadyn-kin-8fh 8192 8 0.0604 0.0595 0.0653 0.0632 pumadyn-kin-8fh 8192 8 0.347 0.337 0.353 0.355 pumadyn-kin-8fh 8192 8 0.0530 0.0496 0.0550 0.0535

OLETF インシュリン非依存型糖尿病モデルラット F344 正常のモデルラット何世代か交配後のラット Marker(1) = OLETF ホモ接合 Marker(2) = F344 ホモ接合 Marker(3) = OLETF / F344 ヘテロ接合 Intercross

表現型血糖値, 疾患, 遺伝子型 (3×102列) マーカー接合状態個体 102 ｜ 103 個

表現型血糖値, 疾患, 遺伝子発現量, 薬の効果, 副作用, ... 遺伝子型 (102～107列) 遺伝子発現量, SNP, ... 個体 102 ｜ 104 個

Clustering

Five brain tissues of adult mouse Expression Patterns of Genes in Various Tissues Brain in embryo Five brain tissues of adult mouse

Clustering genes via expression patterns is promising. A set of genes are expected to share common roles in cellular processes. Genes in the same group would be observed in the same tissue at the same time. Their expression patterns would be similar. Clustering genes by expression patterns would provide substantial insight on real groups of genes.

Graphical Representation of Expression Patterns Before Clustering After Clustering

Clusters of genes coding myelin Cluster of genes coding ribosomal proteins

Tightness of a cluster C of points diameter max{ || x – y || | x and y are points in C } intra-class variance (1 / |C| ) S x in C || x – c(C) ||2 |C| number of points in C c(C) centroid (mean) of C, S x in C x

k-clustering of a set S of points a partition of S into k disjoint nonempty subsets (clusters) C1, …, Ck Minimizing the maximum value of diameters or intra-class variances of all clusters Optimization criteria

Diameter Problem NP-hard if k is treated as a variable Approximation within a factor a of the optimal diameter is NP-hard for a < 2. Approximation factor of 2 is achieved by furthest point heuristic in O(n k)-time. (n = number of points) O(n log k)-time version Diameter1 =　 Diameter2 Intra-class variance1 　 >> 　Intra-class variance2

Intra-class Variance Problem O(n (d+2)k+1 )-time algorithm (d = number of dimensions) O(n(1/e)d )-time e-approximate 2-clustering algorithm Problems of k-clustering It is hard to guess an appropriate value for k, beforehand. It is not easy to avoid generating a false-positive cluster of large intra-class variance that may contain genes of different functions. Our Approach Perform hierarchical clustering by e-approximate 2-clustering. Stop dividing a cluster if its intra-class variance is no more than a given threshold.

Cluster of genes coding ribosomal proteins intra-class variance =209 Clusters of genes coding myelin intra-class variance = 128

講義の予定

結合ルールマイニング Apriori Dynamic Itemset Counting 最適区間最適領域 Correlation 情報科学的手法２次記憶管理主記憶管理　ハッシング最悪計算量 NP完全　NP困難動的計画法凸包探索

分類問題 / 決定木 / 回帰木 C4.5 CART 最適部分集合 NP-hardness / Parallel Search Optimized Ranges / Regions Boosting / Bagging / Weighted Majority 情報科学的方法 NP困難分岐限定法並列化

検索エンジン　キーワード検索　リンク情報の利用　Google / Clever 　検索エンジンの動向 Clustering / Nearest Neighborhood k-means / k-clustering 情報科学的手法近似アルゴリズムグラフアルゴリズム