Presentation is loading. Please wait.

Presentation is loading. Please wait.

構文パターンに基づく 薬剤副作用情報の自動抽出と評価

Similar presentations


Presentation on theme: "構文パターンに基づく 薬剤副作用情報の自動抽出と評価"— Presentation transcript:

1 構文パターンに基づく 薬剤副作用情報の自動抽出と評価
篠原(山田)恵美子1) 服部圭悟2) 三浦康秀2) 外池昌嗣2) 大熊智子2) 増市博2) 荒牧英治3) 大江和彦4) 質問・コメント 1.高血圧が「見られた」 実際には見ているわけではない 2.他院のデータに適用した時に全く新規の表現が出てくることもあるのでは 3.重みの点数は〜スケール?   産婦人科・精神科を除いたのはなぜか? 1)東京大学医学部附属病院 2)富士ゼロックス株式会社 3)東京大学知の構造化センター 4)東京大学大学院医学系研究科

2 日本医療情報学会 COI開示 筆頭発表者:篠原恵美子 共同研究費 富士ゼロックス株式会社 その他 なし
共同研究費 富士ゼロックス株式会社 その他 なし 本研究は富士ゼロックス株式会社との共同研究として行われております

3 薬剤副作用(ADE)の調査 → 用例に基づく手法 薬剤が市場に出た後のADE調査 電子化データの蓄積,利活用への期待
背景 目的 提案手法 評価 まとめ 薬剤副作用(ADE)の調査 薬剤が市場に出た後のADE調査 電子化データの蓄積,利活用への期待   →診療情報からのADE自動抽出 Sentinel Initiative (US) Patient Safety through Intelligent Procedures in medication (EU) 日本のセンチネルプロジェクト 退院時要約のテキストからのADE抽出 機械学習に基づく手法:精度は4割 [Aramaki 2010] 簡単そうな事例の抽出に失敗する場合もある 薬剤が市場に出た後に起きた薬剤副作用,ADEの調査が国内外で重要と考えられています 我々はこれまで退院時サマリのテキスト中からADEを自動抽出する手法として,機械学習を使った方法を研究してきました しかし精度は4割程度であり,メンテナンスがしにくいということもあり,今回新たに用例に基づく手法に取り組むこととしました → 用例に基づく手法

4 目的 提案: 用例に基づくADE抽出手法 評価: 提案手法の課題の洗い出し 背景 目的 提案手法 評価 まとめ
本日は,その手法の提案と,取り漏れがないかどうか,false negativeのチェックについて報告 結果明らかになった,提案手法の弱点をカバーする試みも併せて報告

5 提案手法の概要 係り受け解析 対応付け 並列の追加 用例集の整備 背景 目的 提案手法 評価 まとめ
「免疫抑制剤開始するが高血圧が見られたためCyA減量」 係り受け解析 対応付け 免疫抑制剤開始するが 高血圧が 見られた ため CyA減量 提案手法は,入力文を解析し,ADEの記述パターンを含むかどうかを調べることで,ADE抽出を行うものです 並列の追加 用例集の整備

6 提案手法の概要 係り受け解析 対応付け 並列の追加 用例集の整備 背景 目的 提案手法 評価 まとめ
「免疫抑制剤開始するが高血圧が見られたためCyA減量」 係り受け解析 対応付け 免疫抑制剤開始するが 高血圧が 見られた ため CyA減量 まず用例集の整備を行います 並列の追加 用例集の整備

7 提案手法:用例集の整備 「浮腫が見られ11/23ピオグリタゾン中止」 抽象化 「 が見られ 中止」 S D 係り受け解析 S が 見られ
背景 目的 提案手法 評価 まとめ 提案手法:用例集の整備 「浮腫が見られ11/23ピオグリタゾン中止」 抽象化 「  が見られ  中止」 S D 係り受け解析 S 見られ 中止 D ADEの原因薬剤と副作用症状の両方が含まれる文を,日付など余計な部分を削り,症状と薬剤をそれぞれSとDで置き換え,これを係り受け解析したものを用例として収集します.この四角を文節と呼びます 文節 文節 副作用Treebank 文節

8 <D>*<S>の副作用みられる <D>が<S>の原因
<S>がみられ<D>をoff <S>が疑われ<D>の影響 <S>が強く<D>は中止 <S>が見られ<D>の可能性も考えられた <S>が見られ<D>を中止 <S>が見られ<D>終了 <S>が減少してくれば<D>の副作用 <S>が考えられたため<D>投与をoff <S>が出現<D>減量 <S>が出現し<D>を中止 <S>が出現し原因として<D>を疑う <S>が続いていたので<D>を中止 <S>が認められたため<D>→<D>に変更 <S>したため<D>は中止 <S>したため、<D>中止 <S>する可能性がある<D>を中止 <S>であったため<D>中止 退院サマリから実際に得られた用例の一例です

9 提案手法の概要 係り受け解析 対応付け 並列の追加 用例集の整備 背景 目的 提案手法 評価 まとめ
「免疫抑制剤開始するが高血圧が見られたためCyA減量」 係り受け解析 対応付け 免疫抑制剤開始するが 高血圧が 見られた ため CyA減量 次に,用例を使って入力文からADEを抽出します.この処理で最終的に目指しているのは,入力文中にADEが含まれていた場合に,用例中の症状Sが副作用症状に,薬剤Dが副作用を起こしている薬と,対応付けることです 並列の追加 用例集の整備

10 提案手法:用例との対応付け 基準 内容語一致 機能語一致 言い換え 薬剤とD 症状とS スコア 5 1 3
背景 目的 提案手法 評価 まとめ 基準 内容語一致 機能語一致 言い換え 薬剤とD 症状とS スコア 5 1 3 提案手法:用例との対応付け 「免疫抑制剤開始するが高血圧が見られたためCyA減量」 係り受け解析 アラインメント付与・スコア計算 5 免疫抑制剤開始するが 高血圧が 見られた ため CyA減量 3 5 S 見られ 中止 D 8 3 5 入力文を係り受け解析し,用例集の各用例と比較します.比較は用例と入力文の文節同士を対応づけることで行なっていきます.この対応をアラインメントと呼びます. アラインメントはこの基準のいずれかを満たした場合に付けます.つけていく時に確信度のようなスコアも計算していきます.このペアの場合,機能語である「が」が一致しているので5点,症状である高血圧が入っているので更に3点,合計8点となります. 症状が含まれるかどうかの判定は,予め用意した症状リストに載っているかどうかで行います. 同様にしてアラインメントをつけていきます 1 副作用Treebank

11 提案手法:用例との対応付け 14 11 3 「免疫抑制剤開始するが高血圧が見られたためCyA減量」 係り受け解析 アラインメント絞り込み
背景 目的 提案手法 評価 まとめ 提案手法:用例との対応付け 「免疫抑制剤開始するが高血圧が見られたためCyA減量」 係り受け解析 アラインメント絞り込み 免疫抑制剤開始するが 高血圧が 見られた ため CyA減量 8 S 見られ 中止 D 1 11 14 5 3 次に,たくさんつけたアラインメントのうち,正しいものを残して要らないものを削除します.絞り込んだ結果の候補として,用例から見て1対1になるようにアラインメントを選び,先ほどのスコアを合計します.更に入力文中の文節があまり離れていないほうが良いという考え方で,文節間距離を引き,この候補のスコアとします. 2 1 副作用Treebank

12 提案手法:用例との対応付け 7 11 「免疫抑制剤開始するが高血圧が見られたためCyA減量」 係り受け解析 アラインメント絞り込み
背景 目的 提案手法 評価 まとめ 提案手法:用例との対応付け 「免疫抑制剤開始するが高血圧が見られたためCyA減量」 係り受け解析 アラインメント絞り込み 7 免疫抑制剤開始するが 高血圧が 見られた ため CyA減量 S 見られ 中止 D 11 別の候補についても同じように計算します.このオレンジの候補についてはアラインメントが交差しています.こういうものは候補から除外します 副作用Treebank

13 提案手法:用例との対応付け 7 11 ADE 「免疫抑制剤開始するが高血圧が見られたためCyA減量」 係り受け解析 アラインメント絞り込み
背景 目的 提案手法 評価 まとめ 提案手法:用例との対応付け 「免疫抑制剤開始するが高血圧が見られたためCyA減量」 係り受け解析 アラインメント絞り込み 7 免疫抑制剤開始するが 高血圧が 見られた ため CyA減量 S 見られ 中止 D 11 高血圧 症状 全候補の中から一番スコアの高いものを選び,SとDに対応する文節から症状と薬剤を抽出してADEとして出力します. ADE CyA 薬剤 副作用Treebank

14 提案手法の概要 係り受け解析 対応付け 並列の追加 用例集の整備 背景 目的 提案手法 評価 まとめ
「免疫抑制剤開始するが高血圧が見られたためCyA減量」 係り受け解析 対応付け 免疫抑制剤開始するが 高血圧が 見られた ため CyA減量 以上が提案手法の基本的な部分です.更に並列関係による追加を行う場合があります. 並列の追加 用例集の整備

15 並列文節の追加 ADE 「免疫抑制剤開始するが嘔気,高血圧が見られたためCyA減量」 係り受け解析 並列文節へのアラインメントを追加
背景 目的 提案手法 評価 まとめ 並列文節の追加 「免疫抑制剤開始するが嘔気,高血圧が見られたためCyA減量」 係り受け解析 並列文節へのアラインメントを追加 免疫抑制剤開始するが 嘔気, S 見られ 中止 D 並列 高血圧 症状 嘔気 高血圧が 入力文に嘔気と高血圧両方が見られた,と書かれていた場合,先ほどの手法ではどちらか1つしかアラインメントが取れません.このような場合には,係り受け解析の結果付けられる並列のフラグを元にして,絞り込み処理の後にアラインメントを追加します. 見られた ADE ため CyA 薬剤 CyA減量 副作用Treebank

16 評価 ? ? 退院時サマリ 「浮腫が見られ11/23ピオグリタゾン中止」 ADEを含む文 「Sが見られD中止」 人手で作成 浮腫が 見られ
背景 目的 提案手法 評価 課題 改良 まとめ 背景 目的 提案手法 評価 まとめ 評価 東大病院1ヶ月分(婦人科・精神科以外) 「中止」「変更」「副作用」を含むもの 退院時サマリ 「浮腫が見られ11/23ピオグリタゾン中止」 ADEを含む文 「Sが見られD中止」 人手で作成 浮腫が 見られ 11/23 ピオグリタゾン中止 S 見られ 中止 D さて,退院サマリ1ヶ月分に,1文中にADEの薬剤・症状ともに出現するのが206例ありました.これを抽象化し用例を作りました. この用例を使った時,元となった文から本当にADEは抽出できるのかを確かめるため,薬剤と症状の文節のアラインメントがSとDの文節にアラインメントされているかどうかを調査しました 評価と書きましたが,closedデータですので,評価という意味では非常に弱い設定です. どれだけ学習できたか,カバーできているかのチェック

17 結果 0.前処理 1.係り受け解析 2.アラインメント付与 全部OK 一部OK NG 薬剤 206 症状 184 3 19 3.絞り込み
背景 目的 提案手法 評価 まとめ 結果 0.前処理 1.係り受け解析 2.アラインメント付与 全部OK 一部OK NG 薬剤 206 症状 184 3 19 「ADL低下」 「せん妄」 3.絞り込み 結果,そもそもアラインメントが付かないというケースが,特に症状についてあることがわかりました.例えばADL低下は単独で文節になっており,症状であるとわからなければアラインメントが付けられないという失敗例です.せん妄はせん と 妄に分割されていました.ここでアラインメントが付かないとその後救いようがないので,これをカバーする試みとして,前処理を入れてみました 絞り込み失敗7例中,交差違反が4,アラインメントが存在しない文節が3 並列による失敗が13 複雑な入力による失敗が31 NEによる失敗9(sBP150mmHg,意識もうろう,せん妄,Plt低下,ADL低下,血糖コントロール,WBC,GM耐性緑膿菌(+),ステロイド後療法) パターン分割による失敗が2(カンマを入れることで解決可能) パターンと入力の分割不一致による失敗が4 絞り込みアルゴリズムによる失敗が3 4.並列によるアラインメント付与 全部OK 一部OK NG 薬剤 178 4 24 症状 152 14 40

18 提案手法の概要(補強版) 前処理 (薬剤・症状特定) 係り受け解析 対応付け 並列の追加 用例集の整備 背景 目的 提案手法 評価 まとめ
「免疫抑制剤開始するが高血圧が見られたためCyA減量」 前処理 (薬剤・症状特定) 「  薬剤 開始するが 症状 が見られたためCyA減量」 係り受け解析 対応付け 薬剤 開始するが 症状 が 見られた ため CyA減量 前処理は,入力文の中でどの部分が薬剤でどの部分が症状なのかを予め特定し言葉を置き換えるというものです.この処理によって ・症状と薬剤についてのアラインメント付けの失敗が減る ・入力文がシンプルになり係り受け解析のエラーが減る ・係り受け解析の解析器が並列関係を当てやすくなる といった効果が期待されます 並列の追加 用例集の整備

19 結果 0.症状・薬剤の特定 [荒牧 2010] 1.係り受け解析 2.アラインメント付与 全部OK 一部OK NG 薬剤 206 症状
背景 目的 提案手法 評価 まとめ 結果 0.症状・薬剤の特定 [荒牧 2010] 1.係り受け解析 2.アラインメント付与 全部OK 一部OK NG 薬剤 206 症状 184 3 19 → 206 → 0 → 0 → 200 → 1 → 5 3.絞り込み そうしたところ,アラインメントでの取り漏れはだいぶ減りました.しかし,その後の処理で最終的にはまだ回収できないケースが多く残りました. ◇◇◇良い結果◇◇◇ 絞り込み失敗2例中,交差違反が2(アラインメント不在は0) 並列による失敗が13のうち7を救出 複雑な入力による失敗が33のうち3を救出 NEによる失敗9(sBP150mmHg,意識もうろう,せん妄,Plt低下,ADL低下,血糖コントロール,WBC,GM耐性緑膿菌(+),ステロイド後療法)のうち4(sBP150mmHg,せん妄,Plt低下,ADL低下)を救出 パターン分割による失敗が2(カンマを入れることで解決可能)のうち2を救出 ◇◇◇悪い結果◇◇◇ パターンと入力の分割不一致による失敗4は救出できず 絞り込みアルゴリズムによる失敗3は救出できず 新たに1例失敗 箸にも棒にもかからない症状が12,薬剤が9(うち共通事例は4) <D>の内服=<D>(<D>投与=<D>.助詞が入ると文節が分かれる),浮腫=浮腫の増悪,ヘパリン=ヘパリンの持続点滴,皮疹=皮疹出現(小山田さんモデル)  「ネンブタールを2400mg/dとし、フェンタニルを終了とした」のフェンタニルをとってしまう 括弧内並列(括弧まで含めたタグ付) 普通の並列(症状群をまとめてタグ付) 左下肢の疼痛・熱感の増悪 肝酵素の上昇,やる気の低下,むせ返るような感じ,肝機能の悪化,「両手,頸部のしびれ感」「両手,顔の発赤」「WBC〜と軽度低下」「CRP〜と上昇」「肝胆道系酵素の上昇」,GM耐性緑膿菌(+),食事摂取量の減少,「39.2度の発熱と両下腿、左肘、右膝にφ10cmの発赤、熱感、疼痛を伴う結節」(2文節まとめてタグ付) バクタ,もうろう,ステロイド後療法(単純なNE) NE抽出失敗による並列同定失敗 括弧を抜かすとうまくいく(抗生剤持続(〜4月16日)していたが) 絞り込み 動詞:血中クレアチニン濃度が上昇した,GOT〜GPT〜と著明に上昇した,血圧が〜まで上昇し,血糖コントロールが悪化した,血糖〜程度まで上昇した,デパケン血中濃度が低下した 分割不一致 脱水による腎機能低下 DOC60mg/m2 100mg/bodyのレジメ=DOC 4.並列によるアラインメント付与 全部OK 一部OK NG 薬剤 178 4 24 症状 152 14 40 → 189 → 4 → 13 → 170 → 8 → 28

20 残る課題 前処理 事象の特定 症状”フレーズ”の特定 括弧 絞り込みアルゴリズム 並列 医療テキストには複雑な並列関係が頻出する
背景 目的 提案手法 評価 まとめ 残る課題 前処理 事象の特定 浮腫が認められた=浮腫の増悪が認められた 症状”フレーズ”の特定 肝酵素の上昇,むせ返るような感じ,GM耐性緑膿菌(+) 括弧 絞り込みアルゴリズム 並列 医療テキストには複雑な並列関係が頻出する 残る課題としては,症状が複数の文節に分かれてしまうケースが多いです.「肝酵素の」と「上昇」が別の文節になってしまい,アラインメントを付ける段階では両方につくけれど,アラインメントを絞り込んだ結果,片方にしか残らないというケースです.これを前処理でどうにかしたいと考えています. また,現状の絞り込みアルゴリズムは積極的にADEを否定する処理が入っていないので,今回は見ていませんが,false positiveが非常に多くなると予想されます. そして,並列関係についても,医療テキストには複雑な並列関係が頻出しますので,係り受け解析にこれを頼るのではなく,別途並列構造解析をする必要があるのではないかと考えています

21 まとめ 用例に基づくADE自動抽出手法を提案した 提案手法の基本的な評価を行い,課題を明らかにした 課題1:係り受け解析のための前処理
背景 目的 提案手法 評価 まとめ まとめ 用例に基づくADE自動抽出手法を提案した 提案手法の基本的な評価を行い,課題を明らかにした 課題1:係り受け解析のための前処理 課題2:絞り込みアルゴリズム 今後 提案手法の改善 前処理の拡充 絞り込みアルゴリズムの改良 用例の整理 ADE表現の言語リソース整備 他データ(当院,他院)への適用,手法の性能評価 特にfalse positiveについて

22 DEMO: http://mednlp.jp/~emiko/softmatch/

23 どのような前処理が必要か? 前処理 = 症状と薬剤の文字列範囲特定 「治療開始後より 食欲 低下, 嘔気が あり」
背景 目的 提案手法 評価 まとめ どのような前処理が必要か?  を S 認め 中止 D 「治療開始後より 食欲 低下, 嘔気が あり」 症状 症状 並列 「セッション開始後より 内職 開始, 眠気が あり」 並列でない 「発表開始後より    疑問, 質問が あり」 並列 前処理 = 症状と薬剤の文字列範囲特定


Download ppt "構文パターンに基づく 薬剤副作用情報の自動抽出と評価"

Similar presentations


Ads by Google