Presentation is loading. Please wait.

Presentation is loading. Please wait.

東京医科歯科大学 名誉教授(生命医療情報学) 東北大学 東北メディカル・メガバンク機構 特任教授 機構長特別補佐 田中 博

Similar presentations


Presentation on theme: "東京医科歯科大学 名誉教授(生命医療情報学) 東北大学 東北メディカル・メガバンク機構 特任教授 機構長特別補佐 田中 博"— Presentation transcript:

1 東京医科歯科大学 名誉教授(生命医療情報学) 東北大学 東北メディカル・メガバンク機構 特任教授 機構長特別補佐 田中 博
ゲノム医療実現の基盤とバイオバンク 東京医科歯科大学 名誉教授(生命医療情報学) 東北大学 東北メディカル・メガバンク機構 特任教授 機構長特別補佐 田中 博

2 わが国における 「ゲノム医療元年」

3 急速に展開する国際的な動向 米国 英国 Precision Medicine Initiative 2016〜
オバマ大統領 一般年頭教書 個別化医療というより層別化医療 遺伝的素因・環境素因、mHealthも 短期的:精密腫瘍学 Precision Oncology 長期的:100万人ゲノム・コホート 英国  Genomics England 2013~2017年 10万人の全ゲノムがん・希少疾患・感染症 Genomics Expert Network for Enterprises   (GENE ) Consortium 10万人ゲノムを使用する一年の企業トライアル 13 箇所のGMC、seq解析はサンガーセンター集中 国際的なゲノム情報共有アライアンス GA4GH(Global Alliance for Genomics and Health) 2013年設立(Haussler), 33ヵ国326施設、配列グラフ ゲノム配列と臨床転帰の国際連携 Matchmaker Exchange: 表現型・遺伝型の相互検索、類似疾患の原因を検索 2015年1月 オバマ大統領一般年頭教書 NHS Genome MedicalCenter

4 いよいよ動き出した我が国の「ゲノム医療」 政府・行政
健康・医療戦略推進会議 「ゲノム医療実現推進協議会」設置27.1 ゲノム医療推進方針「中間とりまとめ」 厚生労働省 「ゲノム医療実用化研究推進事業」(AMED)26〜 「ゲノム医療推進本部」設置 27.9 「臨床ゲノム情報統合DB事業(AMED)」 日本医療研究開発機構(AMED)27.4月 設置 「未診断疾患イニシアチブ(IRUD)」27.10 「ゲノム医療推進WG」報告 28.2 「ゲノム医療実現推進プラットフォーム事業」 3大バイオバンク研究基盤事業

5 いよいよ動き出した我が国の「ゲノム医療」 先進的医療機関
国立がん研究センター NCC oncopanel によるがん診断 ゲノム医療実用化研究推進事業(厚労、AMED) SCRUM-JAPAN 産学連携全国がんゲノムスクリーニング 静岡県立がんセンター HOPE計画 マルチオミックス解析によるがんの個別化医療 遺伝性疾患の予防を目指す未病医学、遺伝情報結果回付 京大腫瘍内科 OncoPrime計画 がんドライバー遺伝子の同定と分子標的薬選択(自由診療) 4大学診療施設併設型バイオバンク 京都大学、岡山大学、北海道大学、千葉大学 その他の医療施設 全国遺伝子医療連絡会議では国内に12の医療施設が研究予算でclinical sequence

6 ゲノム Healthcare実現の2つの流れ
臨床ゲノム医療 Clinical Implementation ゲノム医療の臨床実装 現在、主にはClinical Sequencing at POC 遺伝子変異・多型が疾患・病態に影響 がん、希少疾患(単因子性遺伝疾患)など 米国で著明に進展 大規模ゲノム調査研究 Large-scale Genomic Study 主に欧州 GWASからゲノム・コホート(Biobank)へ 疾患ゲノム・コホート Population型ゲノム・コホート

7 臨床ゲノム医療の流れ ー米国での進展を見るー

8 次世代シーケンサのインパクト 次世代シーケンサを始めとするhigh-throughput分子情報収集の急激な発展
急速な高速化と廉価化 ヒトゲノム解読計画13年,3500億円⇒1日,10万円 2005〜 NGS 454 (LS,Roche) 2007/8〜454, Solexa (Ilumina), SOLiD (LT,TF) シーケンス革命 2008年頃から Hiseq X システム 10台構成 (経費1/5) シーケンス革命 2007/8

9 米国におけるゲノム医療の開始 第1世代の(生得的)ゲノム医療が中心 次の2つの潮流が同時に2010年に開始
  第1世代の(生得的)ゲノム医療が中心   次の2つの潮流が同時に2010年に開始 原因不明先天的疾患(undiagnosed disease) 原因遺伝子の臨床の現場で(POC) の診断   次世代シーケンサの爆発的発展を受けて    Wisconsin 医科大学での全エキソーム解析 (2) 薬剤の代謝酵素の多型性の検査  臨床の現場で電子カルテの警告(診療支援)        Vanderbilt大学病院の先制ゲノム薬理 注:初めから少数の予想される遺伝子の変異を調べる候補遺伝子アプローチはすでに「遺伝子医学」で行われていた。網羅的でデータ駆動的な検査(ゲノム網羅的アプローチ)によって変異を見出す医学である

10 ゲノム・オミックス医療の進展とビッグ・データ
2005〜 NGS登場 (454 Life sci) 2007〜シーケンス革命 ・MCW Nic君原因不明腸疾患 WES   XIAPの変異同定・骨髄移植 ・Vanderbilt preemptive PG      (PREDICT計画) 開始 ゲノム医療臨床実装の開始  臨床WESの最初(MCW)  先制PGxの最初(VU) Wisconsin医科大学 臨床シーケンス初例 大きなインパクト 2010 第1世代 Early adopter 時期 Baylor医科大学 Mayo Clinicなど 後続病院多数 ビッグ データ の概念 NIH “Big Data to Knowledge” 計画 (2012/13) ACGM incidental finding list 56 genes (2013) NACHGR report “Future is here” (2013) CPIC guideline, EGAPP guideline 2013 前後 ゲノム医療の国家的取組み NIH “BD2K “initiative 開始 各種ゲノムコンソーシアム 第2世代 国規模の計画/全国Consortium 時期 ゲノムオミックス医療 すでに数十の医療 施設でG/O医療が病院の日常臨床実践 2015 オバマ大統領 年頭教書 Precision Medicine initiative 政策の発表 NIH “BD2K ”COE in Data Science, DDI (2014) ASCO “CancerLinQ”, Cancer Common “Precision Medicine (Obama) ” 1 M genomic cohort

11 ゲノム医療の最初の臨床実装 Clinical Sequencing
Nic Volker Wisconsin 小児病院(全米4位)2009年、3才の男子。 2歳から原因不明の腸疾患で、腸のいたるところに潰瘍が発生。 クローン病かと疑うが、クローン病の既報の遺伝子変異なし 2年間で130回の外科的切除手術を行うが再発を   繰り返す。これ以上行う治療がなくなった(A. Mayer) Nicの全エキソンの配列を次世代シークエンサ決定 MCWで見出された16000個のDNA配列異常を慎重に分析 Medical College of Wisconsin, Human & Molecular Genetics Center Howard Jacob (a major mover of the whole field, Topol) 臍帯血移植(造血幹細胞移植)を実施(2010年6月) 2010年7月半ば(42日後)には、食事が取れるまでに回復した。現在は普通の男子と変わらぬ健康な生活を送っている。 2010年の12月に3回連載で全米に記事・記者にピューリツア賞

12 Wisconsin医科大学小児病院および Froedtert 病院のゲノム医療
Wisconsin医科大学 Genome sequencing program Nic君に続いて(翌年3月まで6例) 候補選択(nomination) 従来の検査・診察で診断困難な症例 Multidisciplinary 患者選択委員会でレビュー 6-8時間のアセスメントとカウンセリング 32 全ゲノム, 550 全エキソーム(2015年4月まで) アメリカ病理学会(CAP)およびClinical Laboratory Improvement Amendments(CLIA:CMS) 基準:最初外注 データ解析:in-houseのBIで Baylor医科大学病院 2番手(すでに準備?) Wisconsinに続いて臨床ゲノム配列解析 病院内にWhole genome laboratory 設立(2011.Oct) In-houseでシーケンシング/変異分析 CAP/CLIA認証の検査室を病院内に立ち上げる。 臨床分子遺伝学者によって解析・結果報告 そのほかにWashington大学、Partnerなど多数つづく Wisconsin 小児病院 Wisconsin 医科大学(MCW) Froedtert 病院 Baylor医科大学

13 ■PREDICTプロジェクト 薬剤代謝酵素多型性のゲノム医療 バンダービルト大学病院 第2の流れ
薬剤代謝酵素多型性のゲノム医療  バンダービルト大学病院 ■PREDICTプロジェクト  34項目の薬剤代謝酵素CYP多型性判定Chip  医師の処方オーダ時に警告提示(2010から) Pharmacogenomic Resource for Enhanced Decisions in Care and Treatment   クロピドグレル処方   電子カルテの警告画面  商品名プラビックス:抗血栓剤  ステント留置手術の後に処方 CYP2C19の多型性で*2*2の場合は 代謝機能が低いので(poor metabolizer) 血栓が凝固する 薬剤投与の応答は不十分である この患者の場合(*2/*2)プラスグレル (商品名エフィエント)に替えるか 分量を2倍にしろと警告している 

14 著名ながんセンター Dana Faber /MD Andersonなど
ゲノムオミックス医療臨床実装化の第3の流れ 著名ながんセンター Dana Faber /MD Andersonなど 第3の要素が加わる 難治性がんのドライバー変異の同定する 組織限局的な後天的ゲノム変異のクリニカル配列解析 国際がんゲノムコンソーシアム(ICGC:2008年から)  50種のがんを500症例の全ゲノム配列解析  2012頃から成果発表と始まった(我が国も肝臓がん) 患者個人70余の変異、全集合で3000を超える変異 がんを推進させるDriver変異と偶発的なPassenger変異 Mayo Clinic 全患者に全ゲノム配列解析:10万人患者(診療圏)データベース構築 先制的 ゲノム薬理学(Preemptive PGx) 検査の初期の実施 特別に診断する“診断オデッセイ”:Clinical Sequencing 原因不明遺伝病 

15 ゲノム・オミックス医療の 3つの流れ ゲノム・オミックス医療 臨床実装(clinical implementation) 2008年
2005〜 NGS (454,Solexa,SOLID) 2007/8〜 シーケンス革命 ゲノム多型性の 認識.Hapmap2002 開始、GWAS 2009年 TCGA (2006) 国際がんコン ソーシアムICCG 2008開始の成果 2011から出現 シーケンス革命 Undiagnosed Disease原因遺伝子のPOC同定 MCW小児病院 2010年 薬剤代謝酵素の多型性の判別・電子カルテで警告・Preemptive PGx Vanderbilt大病院 2011年 Cancer Driver Geneの同定と抗がん剤治験 Mayo Clinic 2012年 2013年 ゲノム・オミックス医療 臨床実装(clinical implementation)

16 ゲノム/オミックス医療-米国の状況 現 状 米国ではすでに数十の医療施設で ゲノム/オミックス医療が病院の日常臨床実践
現 状 米国ではすでに数十の医療施設で ゲノム/オミックス医療が病院の日常臨床実践 NHGRI Working Groupのリスト Wisconsin大学病院 原因不明の遺伝疾患の診断 Vanderbilt大学病院PREDICT計画 薬剤代謝酵素の多型性 Mayo Clinicの臨床ゲノムシーケンス PGx がんおよび非常に稀な遺伝病原因探索 10万人ゲノムDB その他、右表にあるように多数の病院 分子情報と臨床情報の融合を目的として   統合データベース  Mofit Cancer Center (Oracle HRI ) 製薬会社Merkと病院の契約

17 臨床表現型 eMERGEプロジェクト electronic MEdical Record + GEnome (NIH grand)
     電子カルテからphenotyping phase I ( ) 臨床表現型情報のタイピング 電子カルテを通して臨床phenotypingするときの形式 EMR:臨床phenotypingとbiorepositoryに基づくGWASが可能か(EMR-based GWAS)。ELSI側面も検討 eMERGE-I: Mayo Clinic, Vanderbilt大学, Northwestern大学など5施設 phase II ( ) 臨床実装 電子カルテと遺伝情報の統合(実装) 電子カルテへのゲノム情報の統合 PGxの臨床応用に関する試行プロジェクト 結果回付 Return of Result (RoR) 4施設がeMERGE-IIより加わる いくつかの小児病院とMount Sinai/Gesinger phase III : 2015より始まる CSER consortiumと連携 “Clinical Sequencing Exploratory Research” コンソーシアム     NHGRIにより予算化

18 臨床データの表現型形式化(Phenotyping)の問題
i2b2 (Informatics for Integrating Biology and the Bedside) 格納すべきあらゆる情報を  主語(subject)述語(predicate)目的語(object)のトリプレットで形式化、 オントロジーとの組み合わせで検索可能とする、特徴的な設計 Star Schema:データベーススキーマの1つ、その中心に位置するobservation_factテーブルに集約される。 tranSMART − トランスレーショナル生物医学研究のプラットホーム tranSMART Foundationにより開発 されているオープンソース(GPL3) のプラットフォーム:データマート方式 転帰(outcome)などにより集団を抽出し、ヒートマップ, 相関解析, クラスタ分析, 主成分分析, 生存時間分析などの解析が可能 (IMI: Innovative Med. Initiative)

19 (integrated Clinical Omics Database)
臨床ゲノム医療の統合情報基盤 統合臨床オミックス・データベース (integrated Clinical Omics Database) 電子カルテから入力された臨床・病理的診療情報と疾患ゲノム・オミックスから入力された分子情報は 1.データ基礎処理部 電子カルテから必要な情報をphenotyping して所定の形式に 分子情報はゲノムはvariant call、オミックス情報はsignature情報を中心にする 2.統合データベース本体 どのようなデータ形式か検討の必要 RDF化やi2b2方式など 3.データ解析部 分子・臨床情報相関解析、類似症例検索、機械学習の各システムを開発

20 病院内のゲノムオミックス支援 電子カルテシステム
統合臨床オミックスデータベースを情報基盤にして 診療のゲノム・オミックス医療を実践する電子カルテEHR。 Geisinger Hospital などで実践 統合臨床 オミックス データベース 各種知識 ベース (PharmGKB等)

21 大規模ゲノム調査研究の流れ

22 ゲノムワイド関連解析 Genome-wide association study; GWAS
ゲノム全体を網羅する一塩基多型情報と、疾患の有無や量的形質などの表現型情報との関連を統計的に調べる遺伝統計学の一手法 ある疾患の患者(case)とその疾患に罹患していない健常者(control)との間で、~100万箇所の多型(主にSNP)の頻度の分布(差異)を調べ、有意な統計的連関があるかどうか統計的に検定し、疾患関連遺伝子を見出す。多重比較補正 Bonferroni補正 AA Aa aa case control -log p 値のマンハッタンプロット -log p

23 GWASで同定された関連遺伝子のマップ Published Genome-Wide Associations through 12/2012
Published GWA at p≤5X10-8 for 17 trait categories NHGRI GWA Catalog

24 単遺伝子的アプローチでは未知な部分が多すぎる
オッズ比 連鎖解析 GWAS Missing Heritability 遺伝継承性の20%~30% 我々の見解 遺伝子間(Gene-gene)相互作用 Pathway-integrated polygenic effects 遺伝子環境 相互作用(Gene-Environment) 相互作用を1項目のみで評価  他の相互作用項の効果で相殺 アレル頻度

25 GWASからBiobankへ  GWASの研究は峠を超えた。これから関心は全ゲノムのコホート研究(前向き)へ移っている

26 Biobankとゲノムコホート バイオバンクの目的・機能の変化 ① 疾患型BioBank: ② Population型BioBank:
従来は再生医療ための生体標本や臨床研究の資料保存、 ゲノム/オミックス個別化医療、創薬の情報基盤 ① 疾患型BioBank: 疾患罹患患者の網羅的分子情報(ゲノムなど)と 臨床表現型(臨床検査、画像、処方歴、病態経過、転帰など)の収集。 目的:個別化医療の層別化パターンの網羅的摘出、疾患ゲノムコホート ② Population型BioBank: 「健常者」前向きコホート。調査開始時の網羅的分子情報 と生活環境情報(exposome)を集めて、長期間追跡するゲノム・コホート 目的 個別化予防の情報基盤 疾患発症リスク=遺伝子要因x環境要因 欧州の代表的なBiobank  UK biobank 50万人の健常者。40〜69歳( , 62Mポンド), 追加 , 25Mポンド 健診データ(血液・尿・唾液サンプル、生活情報)を集め、健康医療状況を追跡) Genomics England, 2013開始、2017年までに 10万人のゲノム 配列収集。 最初の対象は稀少疾患(患者・家族)、がん患者、最初はEnglandのみ BBMRI(Biobank/Biomole. Res. Infra.)  250以上の欧州各国のBioBankを統合

27 国内の主なバイオバンク・ゲノムコホートの状況
我が国における主なバイオバンク・ゲノムコホートを対象者、規模、目的で大別 大規模/多目的 東北メディカル・メガバンク 東北大学・岩手医科大学 2013年~/被災住民8万人+3世代7万人 バイオバンク・ジャパン (BBJ)/東大医科研・理研 2003年~/20万人(第3期〜) 47疾患・12医療機関 JPHC(多目的コホート) 国立がん研究センター 1990,93,2011(NEXT)~地域住民/10万人 ナショナルセンターバンク(NCBN)2012〜     ・国立がん研究センター     ・国立循環器病研究センター     ・国立精神・神経医療研究センター     ・国立長寿医療研究センター     ・国立国際医療研究センター     ・国立成育医療研究センター J-MICC(多施設共同コホート) 愛知がんセンター等、多施設共同研究 2005年~/10万人、愛知がんセ・名大 健常者 患者 山形分子疫学コホート 2002年/9100人 久山コホート 追跡率99%・剖検率80%  50年の歴史/8000人九州大学 難病バンク 2009年〜医薬基盤研究所(40種以上分譲) ながはま0次予防コホート 京都大学 2002年〜/9100人 小規模/特定目的(特定疾患) 鶴岡メタボロームコホート 鶴岡市・慶応大学 2013年〜/10000人 ※内閣官房 健康・医療戦略室作成資料より抜粋

28 Biobank/ゲノムコホートへの期待 疾患型バイオバンク/ゲノムコホート 健常者(population型)コホート
個別化医療パターンの網羅的摘出 病院ゲノム・オミックス医療DBと相互補完 疾患時間経過とゲノム・オミックス疾患機序の追跡 健常者(population型)コホート 前向きコホート: 発症要因同定「個別化予防]     疾患発症相対リスク 相互作用を評価     =遺伝子要因x環境生活習慣要因 (2)「健康から疾患発症に至る過程」を多数収集 「先制医療受攻状態」(vulnerable period)同定     ⇒ 先制医療創薬の開発    ⇒ QOLにも医療経済的にも有効な政策

29 個別化予防:特異的な遺伝子・環境相互作用 Idiosyncratic Effect of Combination of GxE factors
遺伝的素因と環境の相互作用 相互作用の特異的組合せ効果 ハワイの白人、日系人と結腸がん発生  相対リスクの乗算ではない。 Idiosyncratic Effect HCA(ヘテロサイク リックアミン, 肉を高 温で焼いた時に生成 される発癌物質 CYP1A2 Phenotype  ≦Median CYP1A2 Phenotype      >Median Likes rare/medium meat Likes well-done meat Likes well done meat Non-Smoker NAT2 Slow 1 1.9 0.9 1.2 Rapid 0.8 1.3 Ever-Smoker 0.6 8.8 シミュレーション実験 L. Le Marchand, JH. Hankin, LR. Wilkens, et alCombined Effects of Well-done Red Meat, Smoking, and Rapid N-Acetyltransferase 2 and CYP1A2 Phenotypes in Increasing Colorectal Cancer Risk, Cancer Epidemiol. Biomarkers Prev 2001;10:

30 将来 ゲノム・オミックス医療の 大規模ビッグデータの形成 と知識発見
将来 ゲノム・オミックス医療の 大規模ビッグデータの形成 と知識発見

31 2つの流れは将来融合して ゲノム医療を支える
医療施設 臨床ゲノム医療 臨床統合ゲノムDB 全国規模 大規模ゲノム・コホート Big Data 疾患ゲノム・コホート Populationゲノム・コホート

32 米国でのゲノム医療の推移  第2世代化

33 ゲノムビッグデータ時代の到来(米国) ゲノム・ビッグデータ 次世代シーケンシングの臨床普及(2010〜) 米国では数十の著名病院で実施
第1段階 ゲノム医療の発展 ゲノム医療の実践 次世代シーケンシングの臨床普及(2010〜) 全ゲノム(X30:100Gb)・エキソーム解析(X100:6Gb) 米国では数十の著名病院で実施 2000兆塩基 (2 Pb) が登録(NCBI:SRA) ゲノム・オミックス情報の蓄積 第2段階 医療ビッグデータ時代 医療ビッグデータ 電子カルテからの 臨床フェノタイプ 医療情報との統合 ゲノム・ビッグデータ MayoClinicでは 10万人患者WGS 学習アルゴリズム ゲノム医療知識 人工知能AI

34 ゲノム・オミックス医療の進展とビッグ・データ
2005〜 NGS登場 (454 Life sci) 2007〜シーケンス革命 ・MCW Nic君原因不明腸疾患 WES   XIAPの変異同定・骨髄移植 ・Vanderbilt preemptive PG      (PREDICT計画) 開始 ゲノム医療臨床実装の開始  臨床WESの最初(MCW)  先制PGxの最初(VU) Wisconsin医科大学 臨床シーケンス初例 大きなインパクト 2010 第1世代 Early adopter 時期 Baylor医科大学 Mayo Clinicなど 後続病院多数 ビッグ データ の概念 NIH “Big Data to Knowledge” 計画 (2012/13) ACGM incidental finding list 56 genes (2013) NACHGR report “Future is here” (2013) CPIC guideline, EGAPP guideline 2013 前後 ゲノム医療の国家的取組み NIH “BD2K “initiative 開始 各種ゲノムコンソーシアム 第2世代 国規模の計画/全国Consortium 時期 ゲノムオミックス医療 すでに数十の医療 施設でG/O医療が病院の日常臨床実践 2015 オバマ大統領 年頭教書 Precision Medicine initiative 政策の発表 NIH “BD2K ”COE in Data Science, DDI (2014) ASCO “CancerLinQ”, Cancer Common “Precision Medicine (Obama) ” 1 M genomic cohort

35 国家戦略としての「医療ビッグデータ」 NIH「ビッグデータから知識へ」計画
BD2K: ”Big Data to Knowledge” Initiative 開始 ゲノム・オミックス医療の普及により、臨床シーケンス情報蓄積の大量化蓄積に対応して政策開始 研究費の配分2013年に提案。計画実施は2014年から Francis Collins長官談「NIH全規模での優先計画」 NIH:BD2Kの2014年から助成 医療におけるデータ科学の全米COE創設 ピッツバーグ, UCSC, ハーバード,コロンビア大学、イリノイ大学など11施設 32Mドル Data Scientist 人材養成への予算措置 データ発見索引 DDI (Data Discovery Index) Consortium データベースカタログの発展・Pub MEDのDB版 UCSDに委託: BioCADDIEを中心にDDI開発の準備を担当 米国はすでに戦略的に対応している。わが国は?

36 Precision Medicineとは何か
個人の遺伝素因・環境素因に合わせた (tailored) 医療 One size fits for all の Population 医療とは異なる 趣旨:基本は、個別化医療 Personalized Medicine の 概念と変わらないが、目指していたのは診断/ 治療の 個人化ではなく層別化であることを明確化 概念の拡張:Personalized Medicine提唱時から10数年 2015年1月 オバマ大統領一般年頭教書 医療ビッグデータ時代の到来による個別化医療の拡張 (1)遺伝素因 X 環境(生活習慣)要因のスキーマ重視 SNPや変異(Genome)だけでなく環境・生活習慣要因(Exposome) の重視、疾患発症は2要因の相互作用と明快に強調。臨床表現型 (Clinical Phenome)も疾患発症後には不可欠。3つの成因の重視 (2)日常生理モニタリング情報の包摂 モバイルヘルス(mHealth)・ wearable sensor大量継続情報収集の重視 (3)ゲノムコホート・Biobankの重視 Precision Medicineを実現基盤ゲノムコホート/Biobankの重視。 Real world dataの重視

37 ゲノム医療ビッグデータのための 医療人工知能 Sparse ModelingとDeep Learningに 共通するもの

38 ゲノム医療の「ビッグデータ革命」 〜ゲノム・オミックスデータの基軸的な特徴〜
<目的もデータ特性も従来型と違う> 個体数 属性数   従来の医療情報の「ビッグデータ」   Big “Small Data” (n≫p)  医療情報・疫学調査では 属性数:10項目程度 目的:Population MedicineのBig Data  ⇒個別を集めて「集合的法則」を見る  網羅的分子情報などのビッグデータ    Small “Big Data”(p≫n)  1個体に関するデータ属性種類数が膨大 属性に比べて個体数 少数:従来の統計学が無効 とくに多変量解析:GWASで単変量解析の羅列 目的:例えば医療の場合Personalized Medicine ⇒大量データを集めて「個別化パターン」の多様性を摘出 個体数 属性数 新しいデータ科学の必要性

39 ビッグデータと機械学習 The ASCO (米国臨床癌学) CancerLinQ initiative
IBM Watson Learning Big Data The ASCO (米国臨床癌学) CancerLinQ initiative 診療の現場(EHR)から大量の診療データを集め、 新しい臨床治験へのガイドライン作成 17万人のがん症例データベースを構築。 各がんについて1~2万人の症例を集める 学習システムを構築し治療知識を統計学習、 ニューロネット、機械を駆使して知識抽出。    BigDataにおけるLearning systemの不可欠性 2013年に、CancerLinQのプロトタイプを完成、10万人以上の乳がんを蓄積、完全規模へ継続構築中 IBM Watsonのがんセンターへの普及 Memorial Sloan-Kettering Cancer がんセんたー Watsonを母体にThe Oncology Expert Adviser software 開発 New York ゲノムセンターrとグリア芽細胞腫の治療方針 Google X project, “Human Longevity Inc.”など人工知能の利用

40 人工知能への期待 ビッグデータ 人工知能による 知的処理 データの増大 コンピューティング能力の増大 人工知能(AI)の分野 エキスパート
機械学習 エキスパート システム ルールベース推論 エージェント シミュレーション ニューラル ネットワーク 機械学習技術に基づくWeb検索は実用化され、有用性が確認されている クレジットカードの不正検知や銀行の信用業務に機械学習は利用 プロセス制御にも機械学習の応用が進出している データマイニング 自然言語処理 画像処理 音声処理 テキストマイニング オペレーションズ リサーチ (最適化理論) 統計学 コンピューティング能力の増大

41 「ビッグデータ」のData 縮約原理 ビッグデータ方法論的スパース仮説 ビッグデータ次元縮約 問題点 属性値数(p)≫サンプル数(n)
これら膨大な属性変数がすべて独立ならばビッグデータの構造解析は 不可能。単変量解析の羅列(GWASのManhattan Plot)しか可能でない ビッグデータ方法論的スパース仮説 ビッグデータは、多数であるが属性値数より少ない独立成分が 基底となって、相互にModificationして構成されている。  (独立成分の推定は、サンプル数とともに増加する) ビッグデータ次元縮約

42 医療分野の人工知能の歴史 記号(シンボル)的知識処理 ニューロネットワーク処理 1970 問題解決の一般探索手法 GPS
解決木の高速探索(ゲーム) ニューロネットワーク 3層の学習機械 Perceptron 入力層、隠れ層、出力層 推論システム(if-thenルールシステム) 知識の表現と利用(専門家システム) 医療診断システム(Mycin, Internist) 大ブーム 医療から産業応用の期待波及 1980 多層型ニューロネット 後方伝播 Back Propagation 結合係数修正アルゴリズム 期待消滅 1990 しばらく停滞 知識発見 機械学習 Machine Learning, KDD 診断知識のDBからの学習 ニューロネットワーク型 多層型ニューロネット 深層学習 Deep Learning 結合係数修正アルゴリズム 画像処理から創薬まで 2000 知識準拠診療支援(DSS) 医療ターミノロジー 医療オントロジー

43 ビッグデータ解析に向けた 2つの機械学習・AI方法の適用
数理的なデータマイニング 探索的な統計的データ処理の枠内での次元縮約   ⇒スパースモデリング(疎性モデル)による         データ行列の強制的「次元落ち」(L1正則化) ニューロネットワーク: Deep Learning 特徴量抽出による次元縮約   ⇒Deep LearningのAutoEncode機能     を用いた実質的な独立次元の抽出に    基いた解析・予測

44 数理的な機械学習の次元縮約 スパースモデルによる次元抑制
従来の重回帰分析 通常の二乗誤差の分布 目的変数 説明変数 解(β2=0) Lasso(L1型正則化重回帰分析) 抑制項 (絶対値) 通常の二乗誤差項 次元抑制項(正則化項) この和を最小にする係数 βj を求める 寄与の低い係数 βj は0になる⇒変数選択と次元落ちが同時に達成できる

45 様々なスパースモデルの利用 GWASへの応用 GWASにおけるgene-gene interactionの取り込み(主効果と相互作用)
Correlated SNPs (Ayers and Cordell, 2010) 検出力がさらに増加し、 false-discovery rate (FDR) が低くなった(He and Lin, 2011) Pathwayに含まれているSNP間だけ相互作用を認める(Lu, Latourelle, 2013) 遺伝子発現プロファイルへの応用 Biomarker(差異的発現遺伝子)が明確化 主成分分析にスパース正則化 主成分の解釈が容易になる 次を最小化 判別分析でも正則化により次元縮約

46 Deep Learningによる基軸成分の抽出
古典的Neural Network(1970年代 Perceptron) 多層Neural NetworkとBack projection (1980年代) Back Propagation (1986 Rumelhart) 望ましい出力との誤差を教師信号 として与える事により、次第に結 合係数を変化させ、最終的に正し い出力が得られるようにする。 結合係数を変える事を学習と呼ぶ。 この学習方法には、最急降下法 (勾配法)が使われる。出力層へ 寄与の高いノードの重みが変更。

47 Deep learning どこが新しいか Greedy Layer-wise Training (2006, Hinton)の提案
(1)最初に「教師無しデータ」を利用して、各レイヤーのパラメータを    一層ずつ調整。 (2)最初の層を学習する場合は入力を変換し逆変換をかけ元の入力と    比較し一致するようにパラメータを更新。      xを入力、1層目の変換関数をf,その逆変換の関数をg;g(f(x))を      計算し、xとg(f(x))が一致するようにパラメータを学習する。    パラメータが十分な数があれば元の入力をそのまま返すような    関数が学習される(恒等写像)が、パラメータに正則化をかけて学習する    ことにより、少ない表現力で入力の情報を表現するようにパラメータが    調整される。入力情報を最も良く表現できるような関数が抽出。      基本的な特徴情報が取得される。 (3)autoencoder:変換をかけて元の信号に戻せるように学習する方法 (4)第一層の結合係数は固定して次の階層の学習に入る (5)最後の層が学習できれば、最後は逆伝播で微調整する 正則化項

48 スパース仮説 スパースモデルもDeep Learningも次元縮約的な特徴量を探索するビッグデータ解析のための仮説的原理に基いている。
ただし従来型の次元縮約とは違って、縮約次元は大きく標本数nに影響される(縮約次元はnの関数)データを多数集めれば集めるほど認識が深まる。 いつまでのOpen性(open-endedness)がある。 データ数が増加すると内部的な縮約 次元が増加し推定精度が上昇する

49 医療の「ビッグデータ」革命は どんな既存のパラダイムに挑戦しているか
Population medicineのパラダイム転換 <One size fits for all>のPopulation医療はもはや成り立たない 個別化医療 “Personalized (Precision) medicine” 個別化医療を実現するために<個別化・層別化パターン>を  網羅的に調べる:どこまでの粒度で個別化・層別化すればよいか Clinical research(臨床研究)のパラダイム転換  臨床研究を科学にする従来の基準RCTは,個別化概念に破綻した <statistical evidence based>呪縛からの解放  「標本」統計・「推測」統計学に限定されない臨床研究  Real World Data:ビッグデータ知識生成(BD2K) 創薬の戦略パラダイムの転換 ビッグデータ創薬の可能性 創薬・育薬のReal World Dataの利用

50 Deep learning :創薬からの注目
創薬を巡る状況 平均14年、約2000億円($1.7 B)の費用 市場化された新薬の減少 創薬に費やす期間・コストを低減したい 人工知能の利用 Kaggle (データサイエンス競技会)にMerck社が出題   Molecular Activity Challenge (2012). 15データセットから異なった分子の生物学的活動を予測するモデルの開発コンテスト 勝利したモデルは深層学習 Deep learning を用いたモデル Google in collaboration with Standford (2015) Stanford 第学の Pande 研究室と共同研究 バーチャルドラッグスクリーニングに対する Deep learningによるツール開発 "Massively Multitask Networks for Drug Discovery" Massively Multitask Networks

51 AI(人工知能)創薬 標的分子選択と妥当性検証 Virtual screening と選択 システム薬理学 適切な分子標的の選択
適切な化合物に対するクラス判定 研究例:ChEMBLに対するdeep learning Deep Learningで構造活性相関を学習する Ligand-based 標的予測,7種の予測法とAUC比較 Deep learningは、 SVM, k-近隣法, logistic回帰などより優位 特徴量の抽出、薬理機構の理解達成 リード化合物 最適化 システム薬理学 ネットワーク病態学よりの創薬戦略 他のシステムへの影響(毒性, 副作用)

52 東北メディカル・メガバンクの 情報システムの構築

53 地域住民コホート・三世代コホート 東北メディカル・メガバンク計画における
■地域住民コホート:沿岸部を中心に8万人以上の成人の登録目標を 達成(特定健診相乗り型・支援センター型) ■三世代コホート:産院などで妊婦さんを中心に協力依頼。子世代、 親世代、祖父母世代の三世代。7万人規模での実施 ※ 家族歴があることで、   科学的な質の高いデータが得られる 集団型特定健診参加型調査 5,000人 5,000人 2,500人 2,500人 地域支援センター型健康調査 地域住民コホート  宮城登録者  50,999名  岩手登録者  30,810名   総計 81,809名 (1/8現在) 三世代コホート  登録者  45,809名   (1/21現在) 世界初の世代累積情報付 子ども生涯ゲノムコホート 20,000人 10,000人 20,000人 5,000人

54 長期間追跡調査 疾患発症、死亡(死因) 医療(電子)情報の活用 コホート調査の調査項目 調査票による生活習慣等の把握
採血: 協力者全員より34㎖の採血 血清 9ml 回付項目は後述 ◆結果回付用 全血 2ml 貧血検査用 ◆結果回付用 血糖測定用 2ml 血糖値、HbA1c検査用 ◆結果回付用 血漿 7ml ヒトゲノム・遺伝子解析用 血清保存(バイオバンク)用 ヘパリン採血 5ml 血液中の細胞保存用 ・標準的な調査項目 (運動、飲酒、喫煙、食事、診療情報、人間関係、  女性の健康に関する項目、住所氏名等) ・震災関連項目 (抑うつ、被災状況、ストレス) ・ゲノム関連項目 (体質、出生地等) (検査項目) 採血検査 末梢血一般 血液像 血糖 HbA1c GOT GPT γGTP 総コレステロール HDLコレステロール 中性脂肪 尿素窒素 Cr(eGFRとして回付) 尿酸 血清ペプシノゲン ヘリコバクターピロリ グリコアルブミン 特異的IgE(5項目) 総IgE シスタチンC 地域支援センタ―における詳細検査 特に、身体年齢を調べる検査を実施(希望者のみ) 眼科的検査(眼底・眼軸長・眼圧・網膜断層写真)、聴力検査、呼吸機 能検査、家庭血圧、口腔内診察、頸動脈エコー検査、体組成計、踵骨骨 密度、脚伸展力検査など 参加者の健康づくりに役立つことが明らかになっている項目について、検査結果を回付 長期間追跡調査   疾患発症、死亡(死因)   医療(電子)情報の活用 54

55 地域住民コホート調査 当初目標の5万人参加を達成(11月4日) リクルートは3月31日まで継続
宮城県内 同意者数推移 2015/11/30現在 当初目標の5万人参加を達成(11月4日) リクルートは3月31日まで継続 今後は追跡調査(郵送)と二次調査(2017年~) 青:特定健診参加協力型 赤:地域支援センター型 特定健診参加協力型調査:約38,000人の登録 地域支援センター型調査:約12,000人の登録 いずれも1対1で十分なインフォームドコンセントの後、同意を取得 特定健診参加協力型調査 実施エリア 2013年より調査を開始 仙台市(集団型特定健診なし)を除く全ての沿岸市町村での調査を実施 内陸部についても日程の重複などでお願いできなかったいくつかの地域を除いて調査を実施 個別の結果回付のほか 調査地域での結果報告会を実施 総計20回 実施済み 総計1000名 程度が参加

56 三世代コホート調査 登録状況 (1/20 現在) 総参加者数は45,809人 平成25年7月19日に角田 市より調査を開始
三世代コホート調査 登録状況 (1/20 現在) 2,505人 930人 773人 470人 イラスト制作 橋本さと子 その他の家族 666人 父方祖父 父方祖母 母方祖父 母方祖母 妊婦/母 生まれた児 児のきょうだい 父親 16,507人 5,345人 12,253人 6,360人 総参加者数は45,809人 平成25年7月19日に角田 市より調査を開始 平成28年9月30日まで新 規妊婦リクルートを継続 その後、同年度末までご 家族登録

57 人体に由来する試料と情報を体系的に収集・保管・分配するシステム
バイオバンクとは 人体に由来する試料と情報を体系的に収集・保管・分配するシステム 当バイオバンクの構成 試料・情報 解析手段 保管体制  応用実用化 血清/血漿 健診結果 質問紙 (病歴情報) 血液細胞 DNA RNA エピゲノム (岩手医大) ゲノム解析 プロテオーム メタボローム (東北大) 生命科学研究 基礎医学研究 自動分注 DNA抽出装置 薬の分子標的 バイオマーカー 新しい診断法 個別化予防 データ収集 匿名化 個人情報保護 尿 自動倉庫 LIMS (Laboratory Information Management System) 東北メディカル・メガバンク計画は 複合バイオバンク 複合バイオバンク(Integrated Biobank) = 解析センターを併設したバイオバンク バイオバンク整備 は社会的に有益 大規模な試料と情報の集積 が疾患発生メカニズムを解 明や効果的な予防法や治療 法の開発に重要 国民の健康・福祉の向上、 科学研究の発展、経済にお ける国際競争力の維持等に おいて必要不可欠 保存2Dチューブ 2百万本以上 DNA抽出済 3万人分以上

58 ISO9001取得(2015.06) 試料・情報分譲の開始 試料・情報 分譲室 分譲に関わるICT作業フローの確立
分譲申請用ウェブサイトの作成 分譲先研究者用の解析環境および情報授受環境の整備 本格的な試料・情報分譲審査の実施  (ゲノムデータ、DNA等) 外部機関 研究者 分譲申請 参照用 ウェブカタログ 分譲申請用 ウェブサイト 試料・情報 分譲審査小委員会 試料・情報 分譲審査委員会 承認 試料情報の授受 解析環境提供 解析後の手続き等 試料・情報 分譲室 契約 統合データベース LIMS ISO9001取得( )

59 複合バイオバンクにおけるスーパーコンピュータの役割
スーパーコンピュータは目的に応じてU1からU4の4つの区画に分かれ、 U1とU2はデータバンクとしての役割 U3とU4はゲノム情報解析としての役割 を担っている コア数 16,480 Cores  (401TF) 総メモリ 150 TB      (127TB) 高速ストレージ 12 PB  (50PBまで拡張可能) バックアップ 3 PB  (30PBまで拡張可能)

60 VPN接続による遠隔 アクセス全国拠点整備 正確な層別化によるゲノム医療実現研究推進
統合データベースdbTMM(仮称) 統合データベースdbTMM(制限付公開) 本計画のコホート事業により収集された基本情報、健康調査情報と、ゲノム解析事業によりスパコンU3, U4の解析センターで産生された大規模なゲノム・オミックス情報により、試料・情報分譲の計画にしたがって、大規模ゲノムコホート統合データベースdbTMMを構築し、1.0.0版 (1KJPN) を近日公開、カタログを用意して、分譲に供する。 dbTMMの統合情報を用いた正確な層別化により、ゲノム医療実現の精度の高い解析研究の立案、分譲申請が可能となる。 カテゴリ 性別・年齢などの基本情報 絞り込んだ 集団の特徴 構造化知識 DBとの連携 絞り込んだ集団のコホート参加者の属性情報 40歳以上の男性で、HbA1cが6.2以上で、2型糖尿病の既往歴のある対象者の検索 試料・情報分譲申請の承認後、分譲するストロング情報はスパコンの情報分譲区画での解析が可能となる。 ゲノム医療実現の精度の高い解析研究の立案 ToMMoスーパーコンピュータ 高耐災害性のテープ等へのバックアップ体制強化 複合バイオバンク(解析センター) ゲノム・オミックス情報解析 分譲 全国分譲利用促進 VPN接続による遠隔 アクセス全国拠点整備 統合データベースdbTMM 大規模ゲノムコホートデータの統合 正確な層別化によるゲノム医療実現研究推進 解析センター 全ゲノム解析、エクソーム解析 オミックス解析 統合データベースdbTMM カタログ (インターネット公開)

61 ToMMoのコホートデザインの特徴 ToMMoの解析研究の戦略 地域住民コホート リファレンスパネル 標準ゲノム ジャポニカアレイ
全ゲノム解読とそれに基づくアレイ解析に三世代コホートを用いた家系解析を組み合わせて、疾患原因遺伝子の特定と検証を目指す先進モデルである アイスランドdeCODEジェネティクス アイスランドの家系情報付前向きコホート 29万人の全国民を対象 1/3 程度の参加者(9万人)のDNAを取得 1650年からの家系図情報を保有 環境要因同定 全ゲノム解析 1070人 WGS 8000人目標 地域住民コホート リファレンスパネル 標準ゲノム deCODE の特徴 全ゲノム解読とそれに 基づくアレイ解析に広 範な家系図を用いた解 析を組み合わせて、 次々と疾患原因遺伝子 を特定している先進モ デルであるが、企業が 実施している点での限 界もある 約2千万個のSNPsの同定 日本人のアリル構成 ジャポニカアレイ (日本人SNPアレイによるゲノム情報) 本年2万人、最終15 万人全員ゲノム・ コホートへ適用 TDT解析* 再構成大規模家系でのIBDマッピング** 遺伝子間相互作用 *伝達不平衡試験(transmission disequilibrium test ) **IBD (identity by descent) 三世代コホート (再構成された大規模家系) 数百個の変異からの絞り込み 関連解析 遺伝子-環境相互作用 疾患遺伝子環境相互作用解析

62 東北メディカル・メガバンクにおけるゲノム解析
 1070人分の全ゲノム解析が完了 単独の施設、単一の方式で 遺伝的に均質性の 高い国民集団を高精度に解析した事例は世界初  2120万個の遺伝子多型 / 1200万個を越 える新規多型を同定・収集 新たに発見された多型の多くは比較的希な頻度   (頻度 5%以下)のもの   ヒトのゲノムは 30億 (3x109)塩基対   個人間では 百万(3x106)塩基対   1つの人種内では 4千万(4x107)塩基対  の変異がある この遺伝子変異が個人の体質や疾患への罹患率・感受性を規定している 配列変異の場所と頻度の情報を網羅したデータベースの確立

63 全ゲノムリファレンスパネルの公開 公開したデータの活用状況 1070人の全ゲノム解析に基づく全ゲノムリファレンスパネル(1kJPN)を公開
全世界からアクセスされている データはNBDCにも登録されており、NBDCからのダウンロードも受けている 宮田 満(日経バイオテク ) さてまずは、東北大学が展開している東北メディカルメガバンク(ToMMo)が、日本人1070人の全ゲノム解析から発見したSNPs(一塩基多型)の第2回の公開に踏み切りました。前回は集団で5%以上存在するSNPsを公開しましたが、今回は頻度5%未満から0.047%以上の頻度存在するSNPsを公開しました。実はこうした集団に低頻度存在するSNPsには日本人特有のSNPsが多く存在しており、我が国の疾患関連遺伝子やバイオマーカーの探索にとって強力な武器となります。独占の誘惑を振り切り、遅滞なく公開に踏み切ったToMMoの決断は賞賛されるべきであると思います。また、我が国でも日本人のデータに基づく、ゲノム医療の基盤整備が着実に進んでいる象徴ともなるでしょう。 遺伝子多型の頻度情報の一般公開開始 2014年 8月29日 アレル頻度5%以上 2015年12月15日 全SNV NBDCおよびToMMoポータルサイトで公開 iJGVDへのアクセス:   97カ国から9,295回(2016年1月3日まで) 全SNV公開後のデータダウンロード件数:   総計175(2016年1月20日まで) NBDCからのダウンロード:  6,420回(2015年12月31日まで)

64 日本人向けに高度に最適化したDNAアレイの作出
高品質の東北メディカル・メガバンク全ゲノム参照パネルからデザインしたもの SNP数を最小化しつつ疑似全ゲノム解読を可能にする 多くのコホート研究で稀少変異の検出などに活用可能 多くのコホート研究に活用され、個別化医療・個別化予防の普及による社会の活力向上に資するとともに被災地の創造的な復興に貢献することが期待される 東芝から2014年12月1日にジャポニカアレイV1.0が上市 論文発表 Journal of Human Genetics 60, 581–587 ( ) ジャポニカアレイ® 記者発表 ( )

65 ジャポニカアレイによる擬似フルシークエンスの実現
NGSによる全ゲノム解析 (30万円/人) ジャポニカアレイによる解析 (1万円台/人 を目指す) ToMMo全ゲノム リファレンスパネル 1000人 (平成25年度) 2000人(平成27年度) ジェノタイプ インピュテーション ジャポニカアレイはToMMo全ゲノムリファレンスパネルから最大限に遺伝子型の補完が行える設計がされている 安価で「擬似フルシーケンス」を行う技術を社会実装することで、日本人に固有の体質・疾患の責任遺伝子の大規模探索研究の基盤提供を行う

66 ご清聴ありがとうございました


Download ppt "東京医科歯科大学 名誉教授(生命医療情報学) 東北大学 東北メディカル・メガバンク機構 特任教授 機構長特別補佐 田中 博"

Similar presentations


Ads by Google