ピッチ情報を援用した 圧縮類似度による方言の自動分類

Slides:



Advertisements
Similar presentations
ゲームプログラミング講習 第2章 関数の使い方
Advertisements

サービス管理責任者等研修テキスト 分野別講義    「アセスメントと        支援提供の基本姿勢」 <児童発達支援管理責任者> 平成27年10月1日.
ヒトの思考プロセスの解明を目的とするワーキングメモリの研究
第27講 オームの法則 電気抵抗の役割について知る オームの法則を使えるようにする 抵抗の温度変化を理解する 教科書P.223~226
コラッツ予想の変形について 東邦大学 理学部 情報科 白柳研究室 山中 陽子.
コンパイラ 第3回 字句解析 ― 決定性有限オートマトンの導出 ―
第5章 家計に関する統計 ー 経済統計 ー.
公共財 公共経済論 II no.3 麻生良文.
VTX alignment D2 浅野秀光 2011年12月15日  放射線研ミーティング.
冷却フランシウム原子を用いた 電子の永久電気双極子能率探索のための ルビジウム磁力計の研究
生命情報学 (8) スケールフリーネットワーク
前半戦 「史上最強」風 札上げクイズ.

認知症を理解し 環境の重要性について考える
フッ化ナトリウムによる洗口 2010・9・13 宮崎市郡東諸県郡薬剤師会 学校薬剤師  日高 華代子.
食品の安全性に関わる社会システム:総括 健康弱者 ハイリスク集団 HACCP (食肉処理場・食品工場) 農場でのQAP 一般的衛生管理
規制改革とは? ○規制改革の目的は、経済の活性化と雇用の創出によって、   活力ある経済社会の実現を図ることにあります。
地域保健対策検討会 に関する私見(保健所のあり方)
公共政策大学院 鈴木一人 第8回 専門化する政治 公共政策大学院 鈴木一人
医薬品ネット販売規制について 2012年5月31日 ケンコーコム株式会社.
平成26年8月27日(水) 大阪府 健康医療部 薬務課 医療機器グループ
平成26年度 呼吸器学会からの提案結果 (オレンジ色の部分が承認された提案) 新規提案 既収載の変更 免疫組織化学染色、免疫細胞化学染色
エナジードリンクの危険性 2015年6月23日 経営学部市場戦略学科MR3195稲沢珠依.
自動吸引は 在宅を変えるか 大分協和病院 院長         山本 真.
毎月レポート ビジネスの情報 (2016年7月号).
医療の歴史と将来 医療と医薬品産業 個人的経験 3. 「これからの医療を考える」 (1)医薬品の研究開発 -タクロリムスの歴史-
社会福祉調査論 第4講 2.社会調査の概要 11月2日.
2015年12月28日-2016年3月28日 掲載分.
2010度 民事訴訟法講義 補論 関西大学法学部教授 栗田 隆.
腫瘍学概論 埼玉医科大学国際医療センター 包括的がんセンター 緩和医療科/緩和ケアチーム 奈良林 至
“企業リスクへの考え方に変化を求められています。 トータルなリスクマネジメント・サービスをプロデュースします。“
情報漏えい 経済情報学科 E  西村 諭 E  釣 洋平.
金融班(ミクロ).
第11回 2009年12月16日 今日の資料=A4・4枚+解答用紙 期末試験:2月3日(水)N2教室
【ABL用語集】(あいうえお順) No 用語 解説 12 公正市場価格 13 債権 14 指名債権 15 事業収益資産 16 集合動産 17
基礎理論(3) 情報の非対称性と逆選択 公共政策論II No.3 麻生良文.
浜中 健児 昭和42年3月27日生まれ 東京都在住 株式会社ピー・アール・エフ 代表取締役 (学歴) 高 校:千葉県立東葛飾高校 卒業
COPYRIGHT(C) 2011 KYUSHU UNIVERSITY. ALL RIGHTS RESERVED
Blosxom による CMS 構築と SEO テクニック
記入例 JAWS DAYS 2015 – JOB BOARD 会社名 採用職種 営業職/技術職/その他( ) 仕事内容 待遇 募集数
ネットビジネスの 企業と特性 MR1127 まさ.
Future Technology活用による業務改革
ネットビジネス論(杉浦) 第8回 ネットビジネスと情報技術.
g741001 長谷川 嵩 g740796 迫村 光秋 g741000 西田 健太郎 g741147 小井出 真聡
自然独占 公共経済論 II no.5 麻生良文.
Autonomic Resource Provisioning for Cloud-Based Software
Webショップにおける webデザイン 12/6 08A1022 甲斐 広大.
物理的な位置情報を活用した仮想クラウドの構築
ハイブリッドクラウドを実現させるポイントと SCSKのOSSへの取組み
寺尾 敦 青山学院大学社会情報学部 第12回 情報デザイン(4) 情報の構造化と表現 寺尾 敦 青山学院大学社会情報学部
【1−1.開発計画 – 設計・開発計画】 システム開発計画にはシステム開発を効率的、効果的に実行する根拠(人員と経験、開発手順、開発・導入するシステム・アプリケーション・サービス等)を記述すること。 システム開発の開始から終了までの全体スケジュールを記載すること。 アプリケーション機能配置、ソフトウェア、インフラ構成、ネットワーク構成について概要を示すこと。
6 日本のコーポレート・ガバナンス 2008年度「企業論」 川端 望.
急成長する中国ソフトウェア産業 中国ソフトウェアと情報サービス産業の規模 総売上高は5年間で約5.3倍の成長
米国ユタ州LDS病院胸部心臓外科フェローの経験
公益社団法人日本青年会議所 関東地区埼玉ブロック協議会 JCの情熱(おもい)育成委員会 2011年度第1回全体委員会
次世代大学教育研究会のこれまでの活動 2005年度次世代大学教育研究大会 明治大学駿河台校舎リバティタワー9階1096教室
子どもの本の情報 大阪府内の協力書店の情報 こちらをクリック 大阪府内の公立図書館・図書室の情報
第2回産業調査 小島浩道.
〈起点〉を示す格助詞「を」と「から」の選択について
広東省民弁本科高校日語専業骨幹教師研修会 ①日本語の格助詞の使い分け ②動詞の自他受身の選択について   -日本語教育と中日カルチャーショックの観点から- 名古屋大学 杉村 泰.
■5Ahバッテリー使用報告 事例紹介/東【その1】 ■iphon4S(晴れの昼間/AM8-PM3) ◆約1時間で68%⇒100%
『ワタシが!!』『地域の仲間で!!』 市民が始める自然エネルギー!!
ポイントカードの未来形を形にした「MUJI Passport」
SAP NetWeaver を支える Microsoft テクノロジーの全貌 (Appendix)
ガイダンス(内業) 測量学実習 第1回.
Python超入門 久保 幹雄 東京海洋大学.
熱力学の基礎 丸山 茂夫 東京大学大学院 工学系研究科 機械工学専攻
京都民医連中央病院 CHDF学習推進委員会
資料2-④ ④下水道.
Accessによる SQLの操作 ~実際にテーブルを操作してみよう!~.
Presentation transcript:

ピッチ情報を援用した 圧縮類似度による方言の自動分類 Automatic classification of Japanese dialects using compression similarity distance assisted by pitch information 谷研究室 齋藤 岳丸 山本 峻 鴫原 克幸

1はじめに 2研究項目 3研究結果 4考察、今後の課題 目次 -先行研究、目的 -研究概要 -音声処理(ノイズ除去) -前処理  -先行研究、目的  -研究概要 2研究項目 -音声処理(ノイズ除去) -前処理 -圧縮情報距離 -クラスタリング 3研究結果 4考察、今後の課題

1はじめに 2研究項目 3研究結果 4考察、今後の課題 目次 -先行研究、目的 -研究概要 -音声処理(ノイズ除去) -前処理  -先行研究、目的  -研究概要 2研究項目 -音声処理(ノイズ除去) -前処理 -圧縮情報距離 -クラスタリング 3研究結果 4考察、今後の課題

1.はじめに‐先行研究 ・方言ももたろう 監修・著:杉藤 美代子 前年度までの先行研究 『圧縮情報距離に基づく方言の自動分類』 引用元 2008年 圧縮チーム 昔話「桃太郎」を全国56地方の各方言による語り (音声データ)を収録してあるソフトウェア

1.はじめに‐先行研究 前年度までの先行研究 自動分類 入力例: NHK むかしむかしあるところにおじいさんとおばあさんがありました。 岩手 むがすむがすあるどころにおずうさんとおばあさんがいだあど。 静岡 ずうっとみゃあにあるとこでじいじいとばあばあみて。 大阪 むかしむかしあることろにおじいさんとおばあさんがすんではってん。 那覇 むかしむかしあるところんかいたんめえとんめえがめっせえびいたん。 自動分類

1.はじめに‐先行研究 『圧縮情報距離に基づく方言の自動分類』 前年度までの先行研究 テキストファイルをデータ間の類似度を用いて自動的に分類 過去の入力 2007年 音声ファイルを人が聞いてそれを手作業でテキスト化したもの とてもよい結果が出たが、以下の2点の問題があった ・テキスト化に人間が介入している ・方言で重要なはずの音声情報を全て捨てている 2008年 テキスト化に「ドラゴンスピーチ」ソフトを使い自動的にテキスト化したもの 2007年研究における問題点の1つを解決するために行った

音声情報を付加することで分類の精度をあげる。 1.はじめに-目的 ・テキスト化に人間が介入している   2008年:自動化により改善 ・方言で重要な音声情報を全て捨てている 本年度:音声情報であるピッチを援用する 本研究 前年度までのテキストのみのデータに加え 音声情報を付加することで分類の精度をあげる。

1はじめに 2研究項目 3研究結果 4考察、今後の課題 目次 -先行研究、目的 -研究概要 -音声処理(ノイズ除去) -前処理  -先行研究、目的  -研究概要 2研究項目 -音声処理(ノイズ除去) -前処理 -圧縮情報距離 -クラスタリング 3研究結果 4考察、今後の課題

1.はじめに-研究概要 研究の手順 方言桃太郎(音源) ピッチ情報の取得 前処理 圧縮 クラスタリング 系統樹

1.はじめに-研究概要 『方言桃太郎』 昔話「桃太郎」を全国56地方の各方言による語り (音声データ)を収録してあるソフトウェア。 監修・著:杉藤 美代子 昔話「桃太郎」を全国56地方の各方言による語り (音声データ)を収録してあるソフトウェア。 ・録音時期は1989-1992に録音された。 ・現在、その時期と同じように方言を喋れる話者はいない。 ・地域によって録音環境が悪いところがある。

東京大学 大学院 医学系研究科 認知・言語医学講座で ピッチ抽出 『音声録聞見』 『音声研究入門』(編 今石 元久)に付属 2005年発行 東京大学 大学院 医学系研究科 認知・言語医学講座で 開発されたソフトウェア。

ピッチ情報とは ピッチ : 声帯の振動数 色の濃さ:音量 周波数 (Hz) 時間 青線 フォルマント周波数 ピッチ(赤線) 赤線 ピッチ 青線 フォルマント周波数 赤線 ピッチ ピッチ(赤線) 基本周波数 (声帯の振動数) ピッチ : 声帯の振動数

ピッチについて 基本周波数 音声解析においては、声帯の振動数を指す。 平均的には 男性:125Hz 女性:200Hz 子供:300Hz ・基本周波数は性差、個人差によって変わる ・基本周波数は声帯が長いほど低くなる ・声帯が振動するのは母音の発音時  平均的には 男性:125Hz 女性:200Hz 子供:300Hz

ピッチについて 基本周波数 音声解析においては、声帯の振動数を指す。 平均的には 男性:125Hz 女性:200Hz 子供:300Hz ・基本周波数は性差、個人差によって変わる ・基本周波数は声帯が長いほど低くなる ・声帯が振動するのは母音の発音時  平均的には 男性:125Hz 女性:200Hz 子供:300Hz ピッチ情報に方言の地域差による 特徴が反映されていると考えたから なぜピッチか

ピッチ情報の取得 音声録見聞というソフトウェアにより 1秒間を200個に分割した それぞれの地点でのピッチ周波数の 値が得られる。

ピッチ情報の取得 研究データ 拡張子WAVの音声ファイルを音声録聞見を用いてCSVで書き出し、ピッチ情報を元にひらがなで 音声割り当てを行う。

1はじめに 2研究項目 3研究結果 4考察、今後の課題 目次 -先行研究、目的 -研究概要 -音声処理(ノイズ除去) -前処理  -先行研究、目的  -研究概要 2研究項目 -音声処理(ノイズ除去) -前処理 -圧縮情報距離 -クラスタリング 3研究結果 4考察、今後の課題

音声処理‐ノイズ除去 ノイズ除去 Audacity 音源データの方言桃太郎は地域によってはノイズが が酷く、取得するピッチ情報に影響があるで全ファイルに対してノイズ除去を施す 使用ソフト Audacity ノイズ除去の他に さまざまな効果をつけたり編集できたりと多機能な ソフトウェア

1はじめに 2研究項目 3研究結果 4考察、今後の課題 目次 -先行研究、目的 -研究概要 -音声処理(ノイズ除去) -前処理  -先行研究、目的  -研究概要 2研究項目 -音声処理(ノイズ除去) -前処理 -圧縮情報距離 -クラスタリング 3研究結果 4考察、今後の課題

前処理について ■先行研究での前処理 先行研究では文字情報での比較を行っていた。 圧縮類似度を算出する際には無駄な情報を省くため 文字を数値に置き換えて単純化する。 ひらがなに対して文字コード順に番号を割り当て 1文字1byteの情報に変換を行う。

前処理について ■本研究での前処理 本研究では文字情報にピッチ情報を組み込む必要があるため 先行研究よりも複雑かつ方法が無限に考えられるため、本研究 の要点ともいえる。 今回は前処理を2種類検討し、実験を行った。

前処理1 ・文字情報 文字情報の単純化を行い、2byteで表す ・ピッチ情報 取得したピッチ情報の値を2byteで表す 文字情報とピッチ情報を交互に並べる 完成データ(16進数表現) 000A 0074 0030 009B 0002 0091 0015 0062 0053 0082 000C 008C

前処理2 ・文字情報 文字情報の単純化を行い、1byteで表す ・ピッチ情報 完成データ(16進数表現) ピッチ情報平均値:147 オフセット値:19 文字情報とピッチ情報を交互に並べる 完成データ(16進数表現) 0A61 3088 027E 154F 536F 0C79

前処理1 ピッチ → 値を1byteで出力 文字  → 数値化して1byteで出力

前処理2 ピッチ → 値の平均を中央値として、その振れ幅を1byteで出力 文字  → 数値化して1byteで出力

1はじめに 2研究項目 3研究結果 4考察、今後の課題 目次 -先行研究、目的 -研究概要 -音声処理(ノイズ除去) -前処理  -先行研究、目的  -研究概要 2研究項目 -音声処理(ノイズ除去) -前処理 -圧縮情報距離 -クラスタリング 3研究結果 4考察、今後の課題

先行研究より、本研究ではBZIP2を用いて距離表を算出する。 圧縮情報距離 先行研究より、本研究ではBZIP2を用いて距離表を算出する。 圧縮類似度に基づく データ間の類似度を求める式

圧縮情報距離 文字割り当てを行い 前処理をくわえたファイル

圧縮情報距離 文字割り当てを行い 前処理をくわえたファイル

3つのクラスタリングを利用 ・データの類似度を用いてクラスタリングを行いたいため。 ・前年度までの結果との比較。 <分類する対象の集合> <分類した結果> 関連したデータ同士に分類する

NJ法 近隣結合法 ・全ての枝の長さの総和が最小になるように系統樹を 作っていく。 ・出来上がった樹が最良とは限らない。 ・効率がいい。 ・無根系統樹を作ることができる。 (↑本研究では関係ない)

UPGMA法 平均距離法 ・最も近縁なクラスタ間の距離の平均を求めながら系統樹を作成する。 ・葉から決まり、最後の根の位置が決まる。 ・単純な系統樹作成法(有根系統樹の作成)。

Quartet - method ・木が距離表にどの程度沿っているか評価する基準があり、ランダムに木を変更し評価値を更新していくヒューリスティック(試行錯誤)アルゴリズム。 ・NJ法、UPGMA法と比較すると大幅に処理時間を要する。

1はじめに 2研究項目 3研究結果 4考察、今後の課題 目次 -先行研究、目的 -研究概要 -音声処理(ノイズ除去) -前処理  -先行研究、目的  -研究概要 2研究項目 -音声処理(ノイズ除去) -前処理 -圧縮情報距離 -クラスタリング 3研究結果 4考察、今後の課題

ノイズカットをした音声データを用い、 前処理1と前処理2で作ったグラフを、一昨年のグラフと視覚的に比較する。 3.研究結果 ノイズカットをした音声データを用い、 前処理1と前処理2で作ったグラフを、一昨年のグラフと視覚的に比較する。

前処理1 ピッチ → 値を1byteで出力 文字  → 数値化して1byteで出力

前処理1 NJ法 2007年度 NJ法

前処理1 UPGMA法 2007年度 UPGMA法

前処理1 QUARTET-METHOD 2007年度 quartet-method

前処理2 ピッチ → 値の平均を中央値として、その振れ幅を1byteで出力 文字  → 数値化して1byteで出力

前処理2 NJ法 2007年度 NJ法

前処理2 UPGMA法 2007年度 UPGMA法

前処理2 QUARTET-METHOD 2007年度 quartet-method

1はじめに 2研究項目 3研究結果 4考察、今後の課題 目次 -先行研究、目的 -研究概要 -音声処理(ノイズ除去) -前処理  -先行研究、目的  -研究概要 2研究項目 -音声処理(ノイズ除去) -前処理 -圧縮情報距離 -クラスタリング 3研究結果 4考察、今後の課題

方言の分類にピッチの援用が有効か判断できず 4.考察、今後の課題 全体的に各地方がばらけてしまった 文字だけでの分類を行った先行研究より悪い結果。 問題点 ■ピッチ情報 方言の分類にピッチの援用が有効か判断できず ■音声割り当て ■前処理

方言の分類にピッチの援用が有効か判断できず 4.考察、今後の課題 全体的に各地方がばらけてしまった 文字だけでの分類を行った先行研究より悪い結果。 問題点 ■ピッチ情報  →取得できるピッチ情報が録音環境に左右されやす。 方言の分類にピッチの援用が有効か判断できず ■音声割り当て ■前処理

方言の分類にピッチの援用が有効か判断できず 4.考察、今後の課題 全体的に各地方がばらけてしまった 文字だけでの分類を行った先行研究より悪い結果。 問題点 ■ピッチ情報  →取得できるピッチ情報が録音環境に左右されやす。  →ピッチ情報の組み込み方がよない可能性もあり。 方言の分類にピッチの援用が有効か判断できず ■音声割り当て ■前処理

方言の分類にピッチの援用が有効か判断できず 4.考察、今後の課題 全体的に各地方がばらけてしまった 文字だけでの分類を行った先行研究より悪い結果。 問題点 ■ピッチ情報  →取得できるピッチ情報が録音環境に左右されやす。  →ピッチ情報の組み込み方がよない可能性もあり。  →ピッチに割り当てた日本語が不確実。 方言の分類にピッチの援用が有効か判断できず ■音声割り当て ■前処理

方言の分類にピッチの援用が有効か判断できず 4.考察、今後の課題 全体的に各地方がばらけてしまった 文字だけでの分類を行った先行研究より悪い結果。 問題点 ■ピッチ情報  →取得できるピッチ情報が録音環境に左右されやす。  →ピッチ情報の組み込み方がよない可能性もあり。  →ピッチに割り当てた日本語が不確実。  →有用なものを一つしか実装できなかった。 方言の分類にピッチの援用が有効か判断できず ■音声割り当て ■前処理

4.考察、今後の課題 ・最適なピッチ情報を取得できるような音声処理。 ・音声の長さを一定にする。 ・音声の男女差、声質差などの違いを考慮する。 ・ピッチ以外の音声情報の抽出・適用。 ・適切な前処理・実験データの作成方法を考案する。 ・自動的に音声から日本語割り当てを行う。 どういう図が正しいのかを調べる。

4.考察、今後の課題 ・最適なピッチ情報を取得できるような音声処理。 ・音声の長さを一定にする。   ノイズカットなど音声自体に手を加える。 ・音声の長さを一定にする。 ・音声の男女差、声質差などの違いを考慮する。 ・ピッチ以外の音声情報の抽出・適用。 ・適切な前処理・実験データの作成方法を考案する。 ・自動的に音声から日本語割り当てを行う。 どういう図が正しいのかを調べる。

4.考察、今後の課題 ・最適なピッチ情報を取得できるような音声処理。 ・音声の長さを一定にする。   ノイズカットなど音声自体に手を加える。 ・音声の長さを一定にする。   音声ファイルの長さがバラバラなので。 ・音声の男女差、声質差などの違いを考慮する。 ・ピッチ以外の音声情報の抽出・適用。 ・適切な前処理・実験データの作成方法を考案する。 ・自動的に音声から日本語割り当てを行う。 どういう図が正しいのかを調べる。

4.考察、今後の課題 ・最適なピッチ情報を取得できるような音声処理。 ・音声の長さを一定にする。   ノイズカットなど音声自体に手を加える。 ・音声の長さを一定にする。   音声ファイルの長さがバラバラなので。 ・音声の男女差、声質差などの違いを考慮する。   特に男女差はピッチへの影響が大きいため。 ・ピッチ以外の音声情報の抽出・適用。 ・適切な前処理・実験データの作成方法を考案する。 ・自動的に音声から日本語割り当てを行う。 どういう図が正しいのかを調べる。

4.考察、今後の課題 ・最適なピッチ情報を取得できるような音声処理。 ・音声の長さを一定にする。   ノイズカットなど音声自体に手を加える。 ・音声の長さを一定にする。   音声ファイルの長さがバラバラなので。 ・音声の男女差、声質差などの違いを考慮する。   特に男女差はピッチへの影響が大きいため。 ・ピッチ以外の音声情報の抽出・適用。   ピッチ以外を抽出する、   音声ファイル自体を比べるなど。 ・適切な前処理・実験データの作成方法を考案する。 ・自動的に音声から日本語割り当てを行う。 どういう図が正しいのかを調べる。

4.考察、今後の課題 ・最適なピッチ情報を取得できるような音声処理。 ・音声の長さを一定にする。   ノイズカットなど音声自体に手を加える。 ・音声の長さを一定にする。   音声ファイルの長さがバラバラなので。 ・音声の男女差、声質差などの違いを考慮する。   特に男女差はピッチへの影響が大きいため。 ・ピッチ以外の音声情報の抽出・適用。   ピッチ以外を抽出する、   音声ファイル自体を比べるなど。 ・適切な前処理・実験データの作成方法を考案する。   特に前処理の考案。 ・自動的に音声から日本語割り当てを行う。 どういう図が正しいのかを調べる。

4.考察、今後の課題 ・最適なピッチ情報を取得できるような音声処理。 ・音声の長さを一定にする。   ノイズカットなど音声自体に手を加える。 ・音声の長さを一定にする。   音声ファイルの長さがバラバラなので。 ・音声の男女差、声質差などの違いを考慮する。   特に男女差はピッチへの影響が大きいため。 ・ピッチ以外の音声情報の抽出・適用。   ピッチ以外を抽出する、   音声ファイル自体を比べるなど。 ・適切な前処理・実験データの作成方法を考案する。   特に前処理の考案。 ・自動的に音声から日本語割り当てを行う。   日本語を手で割り当てず、自動化する。 どういう図が正しいのかを調べる。

4.考察、今後の課題 ・最適なピッチ情報を取得できるような音声処理。 ・音声の長さを一定にする。   ノイズカットなど音声自体に手を加える。 ・音声の長さを一定にする。   音声ファイルの長さがバラバラなので。 ・音声の男女差、声質差などの違いを考慮する。   特に男女差はピッチへの影響が大きいため。 ・ピッチ以外の音声情報の抽出・適用。   ピッチ以外を抽出する、   音声ファイル自体を比べるなど。 ・適切な前処理・実験データの作成方法を考案する。   特に前処理の考案。 ・自動的に音声から日本語割り当てを行う。   日本語を手で割り当てず、自動化する。 どういう図が正しいのかを調べる。 ・人間の声についての知識を深める。 ・各地方の歴史と方言のかかわり方。

終わり ご清聴ありがとうございました。

Similarity metric Kolmogorov 記述量 データxを生成するための最小のファイルサイズ Ming Liらの研究でKolmogorov記述量に基づく類似度距離が提案された 𝐾𝑦≥𝐾𝑥のとき 𝑑𝑥,𝑦= 𝐾𝑥𝑦−𝐾𝑥 𝐾𝑦 Kolmogorov 記述量 データxを生成するための最小のファイルサイズ 𝐾𝑥

Similarity metric Ming Liらの研究でKolmogorov記述量に基づく類似度距離が提案された (1)類似度距離d(x,y)は文字列x,yによって得られる (2)Kolmogorov記述量は帰納的でないため計算不可能 (3)圧縮プログラムを利用し、圧縮後のサイズをKolmogorov記述量 の近似値とする。bzip2が有効 𝑑𝑥,𝑦= 𝐾𝑥𝑦−𝐾𝑥 𝐾𝑦 𝑑𝑥,𝑦≈ 𝑔𝑧𝑖𝑝𝑥𝑦−𝑔𝑧𝑖𝑝𝑥 𝑔𝑧𝑖𝑝𝑦 𝑑 𝑥,𝑦 ≈ 𝑏𝑧𝑖𝑝2 𝑥𝑦 −𝑏𝑧𝑖𝑝2 𝑥 𝑏𝑧𝑖𝑝2 𝑦

Nj法

NJ法(近隣結合法) L=2 近隣ペア i,jを選ぶ 新しくノードkをLに追加しi,jを消す Lを全ての葉の集合で初期化 NO NJ法(近隣結合法) 近隣ペア i,jを選ぶ 新しくノードkをLに追加しi,jを消す Lを全ての葉の集合で初期化 L=2 残った2つの距離を求めておしまい YES

Lを全ての葉の集合で初期化 A F E D C B L={A.B.C.D.E.F}

NJ法(近隣結合法) L=2 近隣ペア i,jを選ぶ 新しくノードkをLに追加しi,jを消す Lを全ての葉の集合で初期化 残った2つの距離を求めておしまい YES NO

NJ法(近隣結合法) アルゴリズム 𝑟 𝑖 = 1 ∣𝐿∣ −2 𝑘∈𝐿 𝑑 𝑖𝑘 𝑟 𝑖 = 1 ∣𝐿∣ −2 𝑘∈𝐿 𝑑 𝑖𝑘 𝑟 𝐴 = 1 ∣6∣ −2 5+4+7+6+8 =7.5 B A E F D C 𝑟 𝐴 =7.5 𝑟 𝐵 =10.5 𝑟 𝐶 =8.0 𝑟 𝐷 =9.5 𝑟 𝐸 =8.5 𝑟 𝐹 =11 𝐿= 𝐴,𝐵,𝐶,𝐷,𝐸,𝐹

NJ法(近隣結合法) アルゴリズム 𝑟 𝐴 =7.5 𝑟 𝐵 =10.5 𝑟 𝐶 =8.0 𝑟 𝐷 =9.5 𝑟 𝐸 =8.5 𝑟 𝐹 =11 𝐷 𝑖𝑗 = 𝑑 𝑖𝑗 − 𝑟 𝑖  𝑟 𝑗  𝐷 𝐴𝐵 = 𝑑 𝐴𝐵 − 𝑟 𝐴  𝑟 𝐵 =5−7.510.5 𝑎 =−13

NJ法(近隣結合法) アルゴリズム 𝑟 𝐴 =7.5 𝑟 𝐵 =10.5 𝑟 𝐶 =8.0 𝑟 𝐷 =9.5 𝑟 𝐸 =8.5 𝑟 𝐹 =11 𝐷 𝑖𝑗 = 𝑑 𝑖𝑗 − 𝑟 𝑖  𝑟 𝑗  𝐷 𝐴𝐵 = 𝑑 𝐴𝐵 − 𝑟 𝐴  𝑟 𝐵 =5−7.510.5 𝑎 =−13

NJ法(近隣結合法) L=2 近隣ペア i,jを選ぶ 新しくノードGをLに追加しi,jを消す Lを全ての葉の集合で初期化 残った2つの距離を求めておしまい YES NO

NJ法(近隣結合法) アルゴリズム new node G 𝐿= 𝐴,𝐵,𝐶,𝐷,𝐸,𝐹,𝐺

NJ法(近隣結合法) アルゴリズム new node G i = A j = B 𝑑 𝑘𝑚 = 1 2  𝑑 𝑖𝑚  𝑑 𝑗𝑚 − 𝑑 𝑖𝑗  𝑑 𝐺𝐶 = 1 2  𝑑 𝐴𝐶  𝑑 𝐵𝐶 − 𝑑 𝐴𝐵  = 1 2 47−5=3

NJ法(近隣結合法) アルゴリズム i = A j = B 𝑑 𝑘𝑚 = 1 2  𝑑 𝑖𝑚  𝑑 𝑗𝑚 − 𝑑 𝑖𝑗  𝑑 𝐺𝐶 = 1 2  𝑑 𝐴𝐶  𝑑 𝐵𝐶 − 𝑑 𝐴𝐵 =3 𝑑 𝐺𝐷 = 1 2  𝑑 𝐴𝐷  𝑑 𝐵𝐷 − 𝑑 𝐴𝐵 =6 𝑑 𝐺𝐸 = 1 2  𝑑 𝐴𝐸  𝑑 𝐵𝐸 − 𝑑 𝐴𝐵 =5 𝑑 𝐺𝐹 = 1 2  𝑑 𝐴𝐹  𝑑 𝐵𝐹 − 𝑑 𝐴𝐵 =7

NJ法(近隣結合法) アルゴリズム 𝑑 𝑖𝑘 = 1 2  𝑑 𝑖𝑗  𝑟 𝑖 − 𝑟 𝑗  𝑑 𝑗𝑘 = 𝑑 𝑖𝑗 − 𝑑 𝑖𝑘 𝑑 𝐴𝐺 = 1 2  𝑑 𝐴𝐵  𝑟 𝐴 − 𝑟 𝐵 =1 𝑑 𝐵𝐺 = 𝑑 𝐴𝐵 − 𝑑 𝐴𝐺 =4 𝑟 𝐴 =7.5 𝑟 𝐵 =10.5 𝑟 𝐶 =8.0 𝑟 𝐷 =9.5 𝑟 𝐸 =8.5 𝑟 𝐹 =11

NJ法(近隣結合法) アルゴリズム 𝐿= 𝐶,𝐷,𝐸,𝐹,𝐺 𝐿= 𝐴,𝐵,𝐶,𝐷,𝐸,𝐹,𝐺

NJ法(近隣結合法) L=2 近隣ペア i,jを選ぶ 新しくノードGをLに追加しi,jを消す Lを全ての葉の集合で初期化 残った2つの距離を求めておしまい YES NO

NJ法(近隣結合法) アルゴリズム |L| = 2 → Yes J H 𝐿= 𝐻,𝐽

NJ法(近隣結合法) アルゴリズム

Quartet Method

・Quartet Method C uv|wxの定義 consistentの定義 Maxcostとmincostの定義 totalcostの定義 S(T)の定義 quartet methodのアルゴリズム

v u x w quartet treeとは 2つの葉を持つ2つの subtreeが連結したグラフ quartet tree

uv|wx (quartet tree) v u x w C uv|wx の定義 uv|wxのコスト d(x,y) : x,y間の距離 この値が小さいほど良い木 d(x,y) : x,y間の距離

consistentの定義 2 1 4 3 {1,2,3,4} 12|34 13|24 23|14 考えられる全てのquartet tree … 考えられる全てのquartet tree 1,2,3,4から3つのqarrtet tree となる組み合わせが考えられる

consistentの定義 2 1 4 3 {1,2,3,4} 12|34 13|24 23|14 consistent … 考えられる全てのquartet tree 1,2間の道と3,4間の道は交わっていない →consistentである

consistentの定義 {1,2,3,4} T:木 2 1 4 3 12|34 13|24 23|14 1 4 1 4 1 4 3 4 2 2 3 3 3 2 2 1 × … 考えられる全てのquartet tree 1,3間の道と2,4間の道は交わっている →consistentではない

Maximum cost と minimum costの定義 {1,2,3,4} M:Maximum cost quartetの3組の中からC uv|wx が最大のものを選ぶ すべてのquartetの総和を 木に対するMaximum costとする 1 4 1 4 3 4 2 3 3 2 2 1 ・ m:minimum cost quartetの3組の中からC uv|wx が最小のものを選ぶ すべてのquartetの総和を 木に対するMaximum costとする {4,5,6,7} 6 7 4 5

Total costの定義 {1,2,3,4} 12|34 13|24 23|14 consistent {4,5,6,7} ・ consistent {4,5,6,7} 3 4 1 2 7 6 5 CT : Total Cost ConsistentであるquartetのC uv|wxの総和を 木のtotal costとする

S(T) = :total cost :maximum cost :minimum cost S(T) の定義 1 木:TのS(T) 𝑀 𝑀− 𝐶 𝑇  𝑀−𝑚 :maximum cost S(T) = m :minimum cost 𝐶 𝑇 :total cost 最悪 最高 1 木:TのS(T)

quartet methodのアルゴリズム ランダムに木を生成 S(T)の値を計算 leaf swap subtree swap subtree transfer K回繰り返す 以下の操作からランダムに選ぶ v u x w y z s

quartet methodのアルゴリズム ランダムに木を生成 S(T)の値を計算 leaf swap subtree swap subtree transfer K回繰り返す 以下の操作からランダムに選ぶ w u x v y z s

quartet methodのアルゴリズム ランダムに木を生成 S(T)の値を計算 leaf swap subtree swap subtree transfer K回繰り返す 以下の操作からランダムに選ぶ v u x w y z s

quartet methodのアルゴリズム ランダムに木を生成 S(T)の値を計算 leaf swap subtree swap subtree transfer K回繰り返す 以下の操作からランダムに選ぶ v u x w y z s

quartet methodのアルゴリズム v u ランダムに木を生成 S(T)の値を計算 leaf swap subtree swap subtree transfer K回繰り返す 以下の操作からランダムに選ぶ v u x w y z s

quartet methodのアルゴリズム ランダムに木を生成 S(T)の値を計算 leaf swap subtree swap subtree transfer K回繰り返す 以下の操作からランダムに選ぶ v u w y z s x

UPGMA

UPGMAのアルゴリズム 距離表の作成 クラスタ間の距離が最小のものを選択し結合 平均化された距離を用いて距離表を更新 n-1回更新 系統樹を出力 n-1回更新 No nはクラスタの数 Yes

やってみる。 距離表を作成。 クラスタ間の距離が最小 のものを選択し結合。 平均化された距離を用い て距離表を更新。 n-1回更新してなかったら 2へ戻る。 n-1回更新してたら系統樹 を出力。

やってみる。 距離表を作成。 クラスタ間の距離が最小 のものを選択し結合。 平均化された距離を用い て距離表を更新。 n-1回更新してなかったら 2へ戻る。 n-1回更新してたら系統樹 を出力。

やってみる。 距離表を作成。 クラスタ間の距離が最小 のものを選択し結合。 平均化された距離を用い て距離表を更新。 n-1回更新してなかったら 2へ戻る。 n-1回更新してたら系統樹 を出力。

やってみる。 距離表を作成。 クラスタ間の距離が最小 のものを選択し結合。 平均化された距離を用い て距離表を更新。 n-1回更新してなかったら 2へ戻る。 n-1回更新してたら系統樹 を出力。

やってみる。 距離表を作成。 クラスタ間の距離が最小 のものを選択し結合。 平均化された距離を用い て距離表を更新。 n-1回更新してなかったら 2へ戻る。 n-1回更新してたら系統樹 を出力。

やるとみせかけて 平均化された距離 AC A C

やるとみせかけて 平均化された距離 𝑑𝐴𝐶,𝐴= d(A,C) 2 𝑑𝐴𝐶,𝐶= d(A,C) 2 AC A C

やるとみせかけて 平均化された距離 𝑑𝐴𝐶,𝐴= d(A,C) 2 =2 𝑑𝐴𝐶,𝐶= d(A,C) 2 =2 AC 2 2 A C

やってみる。 距離表を作成。 クラスタ間の距離が最小 のものを選択し結合。 平均化された距離を用い て距離表を更新。 n-1回更新してなかったら 2へ戻る。 n-1回更新してたら系統樹 を出力。 𝑑𝐴𝐶,𝐵= d(A,B)+d(C,B) 2

やってみる。 距離表を作成。 クラスタ間の距離が最小 のものを選択し結合。 平均化された距離を用い て距離表を更新。 n-1回更新してなかったら 2へ戻る。 n-1回更新してたら系統樹 を出力。 𝑑𝐴𝐶,𝐵= d(A,B)+d(C,B) 2 =6.5

やってみる。 距離表を作成。 クラスタ間の距離が最小 のものを選択し結合。 平均化された距離を用い て距離表を更新。 n-1回更新してなかったら 2へ戻る。 n-1回更新してたら系統樹 を出力。 𝑑𝐴𝐶,𝐵= d(A,B)+d(C,B) 2 =6.5

やってみる。 距離表を作成。 クラスタ間の距離が最小 のものを選択し結合。 平均化された距離を用い て距離表を更新。 n-1回更新してなかったら 2へ戻る。 n-1回更新してたら系統樹 を出力。 𝑑𝐴𝐶,𝐷= d(A,D)+d(C,D) 2 =10.5

やってみる。 距離表を作成。 クラスタ間の距離が最小 のものを選択し結合。 平均化された距離を用い て距離表を更新。 n-1回更新してなかったら 2へ戻る。 n-1回更新してたら系統樹 を出力。 𝑑𝐴𝐶𝐵,𝐷= d(AC,D) + d(B,D) 2 =10.25

やってみる。 距離表を作成。 クラスタ間の距離が最小 のものを選択し結合。 平均化された距離を用い て距離表を更新。 n-1回更新してなかったら 2へ戻る。 n-1回更新してたら系統樹 を出力。 𝑑𝐴𝐶𝐵,𝐷= d(AC,D) + d(B,D) 2 =10.25