BioIE のための自然言語処理技術東京大学　辻井研究室 JST研究員　鶴岡慶雅.

Slides:

Advertisements

Similar presentations

Maxent model への挑戦 - 驚きとドキドキ感の理論 - 大野ゆかり Phillips et al. (2006) Maximum entropy modeling of species geographic distributions. Ecological Modeling 190:

Advertisements

大規模コーパスから獲得した名詞の出現パターンを用いた事態名詞の項構造解析

コーパスによる比較文体学 Corpus-based Comparative Stylistics

最大エントロピーモデルに基づく形態素解析と辞書による影響

数理言語情報論　第7回 2009年11月18日数理言語情報学研究室　講師　二宮　崇.

数理言語情報論　第14回 2010年1月27日数理言語情報学研究室　講師　二宮　崇.

言語体系とコンピュータ第5回.

国内線で新千歳空港を利用している航空会社はどこですか？

第十七かぐちとうわさ話.

人工知能特論６．機械学習概論とバージョン空間法

情報学類吉田光男アドバイザー教官：山本幹雄先生

数理言語情報論　第12回 2007年1月28日数理言語情報学研究室　講師　二宮　崇.

自然言語処理における文法開発の軌跡と展望

言語体系とコンピュータ第6回.

共起用例と名詞の出現パターンを用いた動作性名詞の項構造解析

部分木に基づくマルコフ確率場と言語解析への適用

動詞と格要素の共起と名詞の出現パターンを用いた事態性名詞の項構造解析

統率･束縛理論２.

テキストマイニング，データマイニングと社会活動のトレース

Object Group ANalizer Graduate School of Information Science and Technology, Osaka University OGAN visualizes representative interactions between a pair.

Noun の間(に) + Adjective Verb てform + いる間(に) during/while.

東京工科大学コンピュータサイエンス学部亀田弘之

TextonBoost:Joint Appearance, Shape and Context Modeling for Multi-Class Object Recognition and Segmentation 伊原有仁.

事態性名詞の項構造解析に向けた述語項構造に関する資源の作成

大部分の細胞はグルコースを燃料として使用する。グルコースは解糖系によって多段階からなる一連の反応で代謝され、結果的にピルビン酸を生成する。典型的な細胞では、このピルビン酸の多くはミトコンドリアに入り、そこでクレブス回路によって酸化されてATPを産生し、細胞のエネルギー需要に応えている。しかし、癌細胞や他の高度に分裂している細胞においては、解糖系から供給されるこのピルビン酸の多くは、ミトコンドリアとは離れて、乳酸脱水素酵素.

数理言語情報論　第7回 2007年11月19日数理言語情報学研究室　講師　二宮　崇.

Chapter 4 Quiz #2 Verbs Particles を、に、で

CRLA Project Assisting the Project of

Semi-Supervised QA with Generative Domain-Adaptive Nets

論文はざっと見る。最初から細かく読まない！

日本語解析済みコーパス管理ツール「茶器」

動詞の共起パターンを用いた動作性名詞の述語項構造解析

オントロジーを使用したプログラム開発支援システムの提案

IIR輪講復習 #1 Boolean retrieval

大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換

画像ピボットパラフレーズ抽出に向けて大阪大学 NAIST Chenhui Chu,1 大谷まゆ,2 中島悠太1

識別子の命名支援を目的とした動詞-目的語関係の辞書構築

人工知能特論II　第2回二宮　崇.

決定木とランダムフォレスト和田　俊和.

IIR輪講復習 #10 XML retrieval

機械翻訳勉強会 NTCIR-7について 2007年10月16日奈良先端大D1小町守.

インラインスクリプトに対するデータフロー解析を用いた XHTML 文書の構文検証

只見町インターネット・エコミュージアムの「キーワード」検索の改善

Anja von Heydebreck et al. 発表：上嶋裕樹

12. 意味・意図の解析 12.1 意味表現とは 12.2 規則による意味解析処理 12.3 統計的な意味解析処理 12.4 スマートフォンでの音声サービスニューラルネットワークによる意味解析.

ソースコードの特徴量を用いた機械学習によるメソッド抽出リファクタリング推薦手法

2018/9/10 ACL読み会名古屋大学大学院　M２佐藤・松崎研土居裕典.

テキストマイニング，データマイニングと社会活動のトレース

出典：小島尚人、舘智士：インターネット環境下で稼働する画像幾何学的歪補正システムの構築、土木情報技術論文集、Vol 出典：小島尚人、舘智士：インターネット環境下で稼働する画像幾何学的歪補正システムの構築、土木情報技術論文集、Vol.18、pp249～260、2009年10月.

論文紹介: “Joint Embedding of Words and Labels for Text Classification”

東京工科大学コンピュータサイエンス学部亀田弘之

JavaScriptを含んだHTML文書に対するデータフロー解析を用いた構文検証手法の提案

ブースティングとキーワードフィルタリングによるシステム要求検出

人工知能特論II　第8回二宮　崇.

ベイズ音声合成における事前分布とモデル構造の話者間共有

コーパスコーパス(Corpus)はコンピュータの発達とともに、計算機可読なデータを容易に作成・収集することができるようになったことがその背景にある。現在ではコーパス言語学などの学問もある。

JEFFREY WITZEL (University of Texas at Arlington, USA)

大規模コーパスに基づく同義語・多義語処理

せつぞくし接続詞 Conjunctions.

奈良先端科学技術大学院大学小町守 mamoru-k＠is.naist.jp

欠陥検出を目的とした類似コード検索法吉田則裕，石尾隆，松下誠，井上克郎大阪大学大学院情報科学研究科

Webページタイプによるクラスタリングを用いた検索支援システム

医学英語　III 6/11.

識別子の読解を目的とした名詞辞書の作成方法の一試案

Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in

アノテーションガイドラインの管理を行うアノテーションシステムの提案

Improving Strategic Play in Shogi by Using Move Sequence Trees

１．２言語処理の諸観点（１）言語処理の利用分野

東京工科大学コンピュータサイエンス学部亀田弘之

Presentation transcript:

BioIE のための自然言語処理技術東京大学　辻井研究室 JST研究員　鶴岡慶雅

Outline 言語処理資源言語処理ツール応用 GENIAコーパス最大エントロピー法バイオテキスト用品詞タガーバイオテキスト用専門用語タガー HPSGパーザ応用 MEDLINEからの遺伝子・疾患関係の抽出

言語資源の構築言語処理研究のためのリソース現在開発中のリソースドメイン知識コーパスベースの技術のための学習データシステムの汎用性を評価するめの評価データ現在開発中のリソース GENIA リソースオントロジー：ドメイン固有概念を体系化コーパス：概念の実テキスト上での表現

GENIAコーパスの概要 MEDLINE アブストラクト 4,000件 XML形式現在開発中のコーパス（赤字は公開中）ヒト血球細胞における転写因子に関する論文（Human, Blood cells, Transcription factors） XML形式現在開発中のコーパス（赤字は公開中）専門用語とその意味（Kim et al 2003）品詞（Tateisi et al 2004）構文木照応（Institute of Infocomm Research, Singapore）

GENIA専門用語コーパス GENIAオントロジーに基づく意味クラスを付与規模 The peri-kappa B site mediates human immunodeficiency virus type 2 enhancer activation in monocytes … 　　　DNA virus cell_type GENIAオントロジーに基づく意味クラスを付与規模アブストラクト 2,000件用語数 92,723語総異なり数 36,568語

GENIA品詞コーパス個々のトークンに品詞タグを付与規模 The peri-kappa B site mediates human immunodeficiency virus type 2 enhancer activation in monocytes … DT NN NN NN VBZ JJ NN NN NN CD NN NN IN NNS 個々のトークンに品詞タグを付与規模アブストラクト 2,000件 20,544文 50,1054単語（Penn Treebank の約半分）

GENIA構文木コーパス Penn TreeBank の基準に基づき木構造を付与規模アブストラクト 200件 12月までに500件 S VP VP PP NP NP ADJP CD3-episilon expression is controlled by a downstream T lymphocyte-specific enhancer element Penn TreeBank の基準に基づき木構造を付与規模アブストラクト 200件 12月までに500件年度末に1500件（15,000文、Penn Treebankの約3分の1）

Outline 言語処理資源言語処理ツール応用 GENIAコーパス最大エントロピー法バイオテキスト用品詞タガーバイオテキスト用専門用語タガー HPSGパーザ応用 MEDLINEからの遺伝子・疾患関係の抽出

最大エントロピー法による機械学習 Log-linear model 素性関数素性の重み不等式制約による最大エントロピー法 (Kazama and Tsujii 2003) 　Gaussian prior と似たような効果　学習結果（パラメータ）がスパースになるためモデルサイズが小さい　実行時速度・プログラムサイズの点で高い実用性

品詞タグ付け新聞記事などに対しては高精度のタガーが利用可能汎用タガーはMEDLINEでは精度がでない The peri-kappa B site mediates human immunodeficiency DT NN NN NN VBZ JJ NN virus type 2 enhancer activation in monocytes … NN NN CD NN NN IN NNS 新聞記事などに対しては高精度のタガーが利用可能 Brill’s tagger, TnT tagger, MX POST, etc. 約97% 汎用タガーはMEDLINEでは精度がでない

TnT tagger (Brants 2000) によるタグ付け誤り例 … and membrane potential after mitogen binding. CC NN NN IN NN JJ … two factors, which bind to the same kappa B enhancers… CD NNS WDT NN TO DT JJ NN NN NNS … by analysing the Ag amino acid sequence. IN VBG DT VBG JJ NN NN … to contain more T-cell determinants than … TO VB RBR JJ NNS IN Stimulation of interferon beta gene transcription in vitro by NN IN JJ JJ NN NN IN NN IN

GENIAコーパスでの TnT tagger の精度いくつかのタグを同一視して評価精度オリジナル 84.4% NNP = NN, NNPS = NNS 90.0% LS = NN 91.3% JJ = NN 94.9% 実質的には９４％前後？

GENIA tagger 確率モデル Maximum Entropy Markov Model (MEMM) 分類問題なので最大エントロピー法で機械学習

学習素性訓練コーパス Wall Street Journal (WSJ) 39,832文 GENIA corpus 18,508文

タグ付け精度 GENIA tagger （参考）TnT tagger WSJ GENIA 97.0 84.3 75.2 98.1 学習コーパス WSJ GENIA 97.0 84.3 75.2 98.1 WSJ+GENIA 96.9 学習コーパス WSJ GENIA 96.7 84.3 80.1 97.9 WSJ+GENIA 96.5 97.5 特化した場合と比較してほとんど精度低下なし特化した場合よりも 0.2 ~ 0.4 ポイント程度精度低下

固有表現認識(NER) 文の中で, 固有表現(人名, 地名, ..., タンパク質名などの情報抽出にとって重要なオブジェクト）が現れている場所を認識しそのタイプを判定する “Thus, CIITA not only activates the expression of class II genes but recruits another B cell-specific coactivator to increase transcriptional activity of class II promoters in B cells.” PROTEIN DNA DNA CELL TYPE

IOB tagging B-X: タイプXの固有表現の始まり I-X: タイプXの固有表現の中 O: それ以外個々の単語に対するタグ付けタスクとして捉える: ( IOB tagging; Ramshaw and Marcus 1995) Number of glucocorticoid receptors in lymphocytes … O O B-PROTEIN I-PROTEIN O B-CELLTYPE B-X: タイプXの固有表現の始まり I-X: タイプXの固有表現の中 O: それ以外

部分単語列判定モデル可能な部分単語列を分類するタスクと考える効率的な学習 W1 W2 W3 W4 MEMMやCRFなどでは扱えない素性を導入できるただし１文あたり単語数の２乗個の分類　⇒　多すぎる効率的な学習 named entity の一部になる確率が低い単語を含む部分単語列を除外　⇒　学習可能に

学習素性学習器訓練データ： Maximum entropy model 2000 abstracts LMVM cutoff = 0 Gaussian prior = 1000 訓練データ： 2000 abstracts shared task の training set 1/10 を development set として利用

テストセットでの精度 Shared task at Coling 2004 BioNLP workshop Recall Precision F-score SVM+HMM (Zho 2004) 76.0 69.4 72.6 本手法 71.5 70.2 70.8 MEMM (Fin 2004) 71.6 68.6 70.1 CRF (Set 2004) 70.3 69.3 69.8

HPSGパージング HPSG 文法 (Miyao et al. 2004) 少ない文法規則大量の語彙項目項構造を出力確率モデル Log-linear コーパスから学習 HEAD: verb SUBJ: <> COMPS: <> Subject-head schema HEAD: verb SUBJ: <noun> COMPS: <> 語彙項目 Head-modifier schema HEAD: noun SUBJ: <> COMPS: <> HEAD: verb SUBJ: <noun> COMPS: <> adv HEAD: MOD: verb Mary walked slowly

Phrase structure s vp vp np pp dt np vp vp pp np DT NN VBZ VBN IN PRP The company is run by him

Predicate-argument structure vp vp np arg2 pp arg1 mod dt np vp vp pp np DT NN VBZ VBN IN PRP The company is run by him

述語・項構造を利用した情報検索

Parsing MEDLINE by Enju Enju の GENIA Treebank での精度評価文数 LP / LR UP / UR 全ての文 1,556 82.8 / 81.5 86.4 / 85.1 文法でカバーされている文 1,104 86.8 / 86.5 88.7 / 88.4

Outline 言語処理資源言語処理ツール応用 GENIAコーパス最大エントロピー法バイオテキスト用品詞タガーバイオテキスト用専門用語タガー HPSGパーザ応用 MEDLINEからの遺伝子・疾患関係の抽出

対象テキスト MEDLINEアブストラクト 150万件パージング疾患と遺伝子の関係を記述していそうな論文 MeSH Term による絞込み “Disease Category” AND (“Amino Acids, Peptides, and Proteins” OR “Genetic Structures”) パージング HPSGパーザを利用して全ての文を解析実行環境：　PCクラスタ（100 processors with GXP）時間：約10日間

テキストに記述されている疾患・遺伝子関係　These results suggested that targeted disruption of Cyp19 caused anovulation and precocious depletion of ovarian follicles 　Furthermore, AML cells with methylated　p15(INAK4B) tended to express higher levels of DNMT1 and 3B.

学習データ遺伝子・疾患の共起に対して専門家が「関係あり／なし」のアノテーション All foals with OLWS were homozygous for the Ile118Lys EDNRB mutation, and adults that were homozygous were not found. Dominant radial drusen and Arg345Trp EFEMP1 mutation. The 5 year overall survival (OS) and event-free survival (EFS) were 94 and 90 +/- 8%, respectively, with a median follow-up of 48 months. These data may indicate that formation of parathyroid adenoma in young patients is related to a mechanism involving EGFR. ：

述語・項構造を利用した素性 ARG1 ARG2 gene/disease X disease/gene These results suggested that targeted disruption of Cyp19 caused anovulation and precocious depletion of ovarian follicles. Furthermore, AML cells with methylated p15(INAK4B) tended to express higher levels of DNMT1 and 3B.

疾患・遺伝子関係抽出精度学習／評価データ： 2,253文 10-fold cross validation 素性 recall 学習／評価データ：　2,253文 10-fold cross validation 素性 recall precision f-score なし 1.0 0.351 0.520 + bag of words 0.733 0.682 0.706 + local context 0.695 0.714 + 述語・項構造 0.759 0.710

DGA explorer

まとめバイオテキスト用品詞タガーバイオテキスト用専門用語タガー Enju on the GENIA treebank PTBとGENIAコーパスを利用して学習 Precision: 97％バイオテキスト用専門用語タガー F-score: 70.8% Enju on the GENIA treebank LP/LR: 82.8% / 81.5% MEDLINEからの遺伝子・疾患関係の抽出 F-score: 73%

公開ソフトウェア・リソース GENIA Enju（HPSGパーザ） MEDUSA（項構造を利用した情報検索システム） LiLFeS 専門用語コーパス品詞コーパス構文木コーパス照応コーパス（公開予定, シンガポール大）品詞タガー専門用語タガー（予定） HPSGによるパーズ結果（MEDLINE１０万件） Enju（HPSGパーザ） MEDUSA（項構造を利用した情報検索システム） LiLFeS