文脈情報に基づいた 日本語テキストにおける英語略語の自動展開

Slides:



Advertisements
Similar presentations
肺塞栓症 医療安全対策講演会 2005/9/12. 肺塞栓症とは 下肢、骨盤などの深部静脈にできた 塞栓子が静脈の血流にのって肺動脈 を閉塞する疾患。 塞栓子は血栓が多く、他に腫瘍、 空気、脂肪塞栓がある。
Advertisements

急性腹症は定番 CT の重要性 解剖、腫瘍疾患の所見は必須 MRI 婦人科疾患の鑑別 T1 強調像、 T2 強調像の意味 消化管造影は減少? 内視鏡との相補的な扱い ポリポーシス、大腸疾患は依然重 要 肝、胆道系(腫瘍の鑑別)は? 腹部の画像診断のポイント.
2008 年医師国家試験解説 ー画像診断のポイントー 放射線科 石口恒男 2008 年 7 月 1 日 (1) 頭部.
厚木市立病院 脳神経外科 平成24年手術実績. 平成 24 年手術内訳 分類 n JanFebMarAprMayJuneJulyAugSepOctNovDecTotal 腫瘍 脳血管障害 外傷 脊髄・末梢.
大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
構文パターンに基づく 薬剤副作用情報の自動抽出と評価
自然言語処理:第3回 1.前回の確認 2.構文解析 3.格文法.
最大エントロピーモデルに基づく形態素解析と辞書による影響
パネル型クエリ生成インタフェース画像検索システムの改良
ヘルスケア連動型 市販薬検索システム 研究者 : 加納 えり 指導教員 : 越田 高志.
形態素周辺確率を用いた 分かち書きの一般化とその応用
Web-siteへ寄せられた の分析と ジアテルミー手術のため来院した症例 ひたちなか市 志井田 守
A case of pneumatosis cystoides intestinalis attributed
アレルギー・アナフィラキシー 山形大学輸血部 田嶋克史.
輸血の適応/適正使用 血小板製剤 福井大学輸血部 浦崎芳正.
時間-周波数分解と圧縮伸長を 用いたシャント音の解析
背景 CABGを必要とする虚血性冠動脈疾患の背景には動脈硬化の影響があり、プラークの退縮効果が明らかにされているスタチンを投与することで予後を改善する効果が期待される CABGを行った患者に対しスタチンを投与することで予後を改善する効果を検証することが本研究の目的である 2015/2/17 第45回日本心臓血管外科学会.
体重減少 ◎食欲があるのに体重が減る ⇒糖尿病、甲状腺機能亢進症、吸収不良症候群などを疑う ◎食欲がなくて体重が減る ⇒その他の疾患を疑う
無脾症候群  無脾症候群は、内臓の左右分化障害を基本とする病気です。 その中で、左右とも右側形態をとるものを無脾症候群と呼んでい ます。脾臓が無いか非常に小さな場合が多く感染症に耐性がありません。  多種多様な心奇形を呈しますが、単心室、肺動脈閉鎖・狭窄、総肺静脈還流異常(しばしば肺静脈狭窄を呈します)、共通房室弁口遺残(心房─心室間の弁がきちんと左右2つに分化しておらず、しばしば弁逆流を合併します)を高頻度に合併しています。全国的に、現在でも先天性の心疾患の中で最も治療が難しい疾患の1つです。
DPCにおける新たな機能評価係数に関する指標、とりわけ希少性指数についての検討
息苦しくてつらい 4年 佐野智子.
全身倦怠感 全身倦怠感はさまざまな病気にみられます 疲れやすい… だるい…
森實敏夫 2008年基礎病態 貧血の病因と症状 森實敏夫 2008年基礎病態
輸血の適応/適正使用 新鮮凍結血漿 福井大学輸血部 浦崎芳正.
ホスピス外来における STAS-Jを活用した看護の実際
横隔膜浸潤と胸水貯留から呼吸苦を訴えた9500gの 超巨大GISTの1例
明海大学歯科総合医育成コース認定医制度 症例発表用テンプレート
2型糖尿病患者におけるナテグリニドと メトホルミン併用療法の有効性と安全性の検討
透析患者に対する 大動脈弁置換術後遠隔期の出血性合併症
テキストマイニング, データマイニングと 社会活動のトレース
1.自然言語処理システム 2.単語と形態素 3.文節と係り受け
4Y-4 印象に残りやすい日本語パスワードの合成法
自律神経の研究成果 神経生理 平山正昭.
外科手術と輸血 大阪大学輸血部 倉田義之.
雑音重み推定と音声 GMMを用いた雑音除去
2004年5月11日 公開 ユーザー登録数は18,361人(2006年9月末)
各種手術における静脈血栓塞栓症のリスクの階層化(年齢因子を含む)
説明書(手術、麻酔、治療法) 私は、患者 様の(手術、麻酔、治療法)について、次のとおり説明いたしました。 Ⅰ 現在の診断名、原因
高血圧 診断・治療の流れ 診断と治療の流れ 問診・身体診察 二次性高血圧を除外 合併症 臓器障害 を評価 危険因子 生活習慣の改善
形態素解析および係り受け解析・主語を判別
第1章:ATIS(アテローム血栓症)とは? atherothrombosis
胸部領域疾患 ~症状と検査画像から病気を読もう~
エイズとその予防.
脳血管 MR診断に必要な脳動脈の解剖 荏原病院放射線科 井田正博
動詞の共起パターンを用いた 動作性名詞の述語項構造解析
頚動脈内膜剥離術 Carotid endarterectomy:CEA
◎平成30年度医療相談(予約制)  治療や療養上の不安や悩みを軽減したり、なかなか主治医に聞きにくいことを専門医に聞いてみるよい機会です、是非ご相談ください。 時間:14:00~16:30  1人 30分程度      
◎平成29年度医療相談(予約制) *ピアカウンセリング(同じ難病患者による相談)
自然言語処理及び実習 第11回 形態素解析.
2015年症例報告 地域がん診療連携拠点病院 水戸医療センター
当院は、第9次全国肺癌登録事業に参加します
大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換
最近の国試問題における 画像診断のポイント
岡山大学医学部歯学部附属病院整形外科 腰椎椎間板ヘルニア の手術を受けられる患者様へ 腰椎椎間板ヘルニアとは
脳梗塞.
偶発性低体温患者(非心停止)の復温法 復温法 軽中等度低体温 ≧30℃ 高度低体温 <30℃ ○ PCPS 能動的体外復温法
強皮症に伴う腎障害 リウマチ・アレルギー疾患を探る p142. 永井書店 強皮症に伴う腎病変には次の3パターンがある。
ソースコードの特徴量を用いた機械学習による メソッド抽出リファクタリング推薦手法
血栓性血小板減少性紫斑病 TTP 溶血性尿毒素症候群 HUS
小腸カプセル内視鏡により 診断しえた小腸出血の一例
類似度を用いた WWW のリンク構造の解析 谷 研究室    栗原 伸行.
緊急輸血・大量輸血 山形大学輸血部 田嶋克史.
2015年症例報告 地域がん診療連携拠点病院 水戸医療センター
高槻市医師会地域連携クリティカルパス(患者様用)
テキストマイニング, データマイニングと 社会活動のトレース
NSAIDsの使い方.
心電図 二次チェック 非ST上昇心筋梗塞 ST上昇心筋梗塞 ー不安定狭心症 予防的治療: (禁忌でなければ): βブロッカー、ACE阻害薬
ブースティングとキーワードフィルタリング によるシステム要求検出
一過性脳虚血発作の機序: (1990年NINDSの定義と 2009年AHA/ASAの定義別に)
新生児溶血疾患と母体免疫 母体の免疫反応 浜松医科大学輸血部 中辻理子.
Presentation transcript:

文脈情報に基づいた 日本語テキストにおける英語略語の自動展開 篠原(山田)恵美子1) 荒牧 英治2) 杉原 大悟3) 三浦 康秀1,3) 外池 昌嗣3) 大熊 智子3) 増市 博3) 大江 和彦4) 1)東京大学医学部附属病院 2)東京大学知の構造化センター 3)富士ゼロックス株式会社 4)東京大学大学院医学系研究科

A 略語展開 (酸) アデニン アデニル酸 アドレナリン アルブミン (アルコール) アレルギー 管 アンペア 扁桃核 アンドロステロン (動脈血) 動脈 上行結腸 評価 心房 発作 眼科系 直線加速 A 略語展開

「PIDの短縮が見られ鉄欠乏性貧血と診断」 背景 例. 情報検索 「椎間板ヘルニア」 「PID」 展開語 略語 「椎間板ヘルニアによる坐骨神経痛」 「L5とS1の間のPIDと診断」 「PIDの短縮が見られ鉄欠乏性貧血と診断」

「PIDの短縮が見られ鉄欠乏性貧血と診断」 背景 例. 集計 「疾患ごとの患者数は?」 椎間板ヘルニア 1人 鉄欠乏性貧血 1人 椎間板ヘルニア もう1人! 「椎間板ヘルニアによる坐骨神経痛」 「L5とS1の間のPIDと診断」 「PIDの短縮が見られ鉄欠乏性貧血と診断」

背景 医療の略語  退院サマリ(現病歴) 13回 / 1退院サマリ 略語集に収載されている略語は90%

「PIDの短縮が見られ鉄欠乏性貧血と診断」 骨盤内炎症性疾患 フェニンジオン 血漿鉄消失時間 原発性免疫不全症 椎間板ヘルニア 「L5とS1の間のPIDと診断」 「L5とS1の間の椎間板ヘルニアと診断」 「PIDの短縮が見られ鉄欠乏性貧血と診断」 「血漿鉄消失時間の短縮が見られ鉄欠乏性貧血と診断」

Topic 0. 略語展開の基本

PIDによる坐骨神経痛 文脈が一番似ている「PID」はどれか? PID 略語集 略語の使用事例 血漿鉄消失時間 原発性免疫不全症 フェニンジオン 骨盤内炎症性疾患 椎間板ヘルニア PID 略語の使用事例 術後     を投与 PID     の短縮が見られた 易感染性,血小板減少が見られ     の可能性 では神経根圧迫により下肢痛が生じる 排尿障害があり     が疑われた

文→数値ベクトル 1 2 3 4 5 6 7 8 9 10 … 排尿 障害 術 後 経過 胃 短縮 疑う ある たまる 排尿障害があり PID が疑われた 1 … =(1, 1, 0, 0, 0, 0, 0, 1, 1, 0, …) 術後PIDを投与 0 1 … =(0, 0, 1, 1, 0, 0, 0, 0, 0, 0, …)

似ている文脈はどれか? + - +0.2 原発性免疫不全症 易感染性,血小板減少が見られ の可能性 PID PID による坐骨神経痛 易感染性,血小板減少が見られ     の可能性 PID + PID による坐骨神経痛 排尿障害があり     が疑われた PID +0.8 椎間板ヘルニア 骨盤内炎症性疾患 -     では神経根圧迫により下肢痛が生じる PID -3.2     の短縮が見られた PID 術後     を投与 PID フェニンジオン -4.3 血漿鉄消失時間 -5.4

仮定「略語とフルスペルは同じ文脈で使われる」 略語の使用事例の収集 PID 骨盤内炎症性疾患 フェニンジオン インターネット 血漿鉄消失時間 検索 原発性免疫不全症 椎間板ヘルニア 易感染性,血小板減少が見られ              の可能性 原発性免疫不全症 仮定「略語とフルスペルは同じ文脈で使われる」 略語の使用事例(とする) 易感染性,血小板減少が見られ              の可能性 PID

評価実験 略語8語 実験データ(略語の使用事例) 精度評価(正解率) 略語ごとに5分割交差検定 展開語全てが5文字以上 用途 曖昧性の回避 精度評価(正解率) 略語ごとに5分割交差検定 実験データ(略語の使用事例) 用途 SVMの学習 略語展開の精度評価 インターネットから収集 実験データ 精度⑤ 精度④ 学習用 5分割 精度③ 精度② 評価用 精度① 平均精度

略語 展開語 ASA アセチルサリチル酸 能動全身性アナフィラキシー 抗平滑筋抗体 アルギニノコハク酸 アスピリン喘息 DHA デヒドロアスコルビン酸 デヒドロ酢酸 デヒドロエピアンドロステロン ジヒドロキシアデニン ドコサヘキサエン酸 DIC アジピオドンメグルミン 播種性血管内凝固症候群 点滴静注胆道造影 点滴静注胆嚢胆管造影 点滴静注胆嚢造影 PAN 結節性動脈周囲炎 周期交代性眼振 ポリアクリロニトリル 結節性多発性動脈炎 ピューロマイシン腎症 PCI 経皮的冠動脈インターベンション 末梢循環障害 腸管嚢胞様気腫 予防的全脳照射 プロテインCインヒビター PID 骨盤内炎症性疾患 フェニンジオン 血漿鉄消失時間 原発性免疫不全症 椎間板ヘルニア PPP 口蓋咽頭形成術 膵ポリペプチド 五炭糖リン酸回路 前脛骨部色素斑 乏血小板血漿 汚染者負担の原則 掌蹠膿疱症 SAS 左室流出路狭窄 睡眠時無呼吸症候群 くも膜下腔 大動脈弁上部狭窄 交感神経アドレナリン系

Topic 1. 文字に基づく略語展開

再び:文→数値ベクトル 1 2 3 4 5 6 7 8 9 10 … 排尿 障害 術 後 経過 胃 短縮 疑う ある たまる 排尿障害がありPIDが疑われた 1 … =(1, 1, 0, 0, 0, 0, 0, 1, 1, 0, …) 術後PIDを投与 0 1 … =(0, 0, 1, 1, 0, 0, 0, 0, 0, 0, …)

「排尿障害がありPIDが疑われた」 Topic 1 形態素解析の利用 排尿 障害 が PID 疑わ れ た あり 椎間板ヘルニア 形態素解析 疑う れる 名詞 動詞 助動詞 助詞 あり ある 椎間板ヘルニア 展開

「播種性血管内凝固症候群」 Topic 1 形態素解析の利用 播種 性 血 管内 凝固 症候 群 播種性 血管内凝固 症候群 播種性 名詞 接尾辞 接頭辞 播種性 血管内凝固 症候群 播種性 血管内凝固症候群 播種性血管内凝固症候群

利点 欠点 意味的にまとまりのある情報を扱える 解析ミスの可能性 辞書のメンテナンスが大変 実装の労力が増える 実行の労力も増える Topic 1 形態素解析の利用 利点 意味的にまとまりのある情報を扱える 欠点 解析ミスの可能性 辞書のメンテナンスが大変 実装の労力が増える 実行の労力も増える      ・・・使わなくて済むなら使いたくない

SASモルヒネ投与後の掻痒感が軽減した」 Topic 1 提案:文字に基づく略語展開 「プロポフォール静脈内投与により、  SASモルヒネ投与後の掻痒感が軽減した」 比較手法: 「略語の前後に出現した 名詞と動詞,それぞれ直近3語」 プロポフォール,静脈,投与,モルヒネ,投与,掻痒 よる,する 「略語の前後n文字以内に出現した  文字,隣接するひらがな2文字,隣接するカタカナ2文字」 提案手法: ル,静,脈,内,投,与,に,よ,り,モ,ル,ヒ,ネ,投, 与,後,の,掻,痒, によ,より, モル,ルヒ,ヒネ ( n(window幅)=10の場合 )

Topic 1 実験結果 結論:形態素 < 文字

Topic 2. 未知の展開語を考慮した略語展開

「当院通院中だがPID(未知)不明のため」 骨盤内炎症性疾患 フェニンジオン 血漿鉄消失時間 原発性免疫不全症 椎間板ヘルニア 「L5とS1の間のPIDと診断」 「L5とS1の間の椎間板ヘルニアと診断」 「当院通院中だがPID不明のため」 「当院通院中だがPID(未知)不明のため」

Topic 2 方法1. 未知語判定してから分類 Topic 1の方法 骨盤内炎症性疾患 血漿鉄消失時間 既知 原発性免疫不全症 椎間板ヘルニア PID 未知 フェニンジオン  既知語の精度 = 78.6%  未知語の精度 = 84.6%

Topic 2 方法2. 未知語を考慮して分類 Topic 1の方法 骨盤内炎症性疾患 血漿鉄消失時間 原発性免疫不全症 椎間板ヘルニア PID 未知 フェニンジオン 既知語 = 88.5% > 方法1 未知語 = 86.8% > 方法1

Topic 2 方法2’. 学習データを追加してみる 原発性免疫不全症 椎間板ヘルニア 骨盤内炎症性疾患 既知語 = 85.9% < 方法2 未知語 = 91.6% > 方法2 フェニンジオン 血漿鉄消失時間

結語 日本語テキスト中の英語略語の展開 今後の課題 形態素解析を使わない方が良い 未知の展開語を考慮する時, 学習データの収集 既知・未知の判別と略語展開を同時に行った方が良い 対象略語と関係ないデータを加えることで精度の調整ができる 今後の課題 学習データの収集 未知の展開語の推定

略語展開の概略 略語を含む文 略語 略語集 展開語 展開語 展開語 未知の略語 生成器 辞書 分類器 展開語の用例 展開語

Antiplatelet action appears after administration of low dose ASA Input: Antiplatelet action appears after administration of low dose ASA One-versus-the-rest classifier SVM 1 +0.8 "acetylsalicylic acid" or not SVM 2 -0.7 "active systemic anaphylaxis" or not maximum SVM 3 -0.3 "anti-smooth muscle antibody" or not SVM 4 +0.1 "argininosuccinic acid" or not SVM 5 -0.4 "ascorbic acid" or not Output: Antiplatelet action appears after administration of low dose acetylsalicylic acid

< character unigram/bigram accuracy 低用量のASAを投与すると抗血小板作用が現れる (Antiplatelet action appears after administration of low dose ASA) morphological analyzer morpheme-based abbreviation expansion character-based 用量(dose), 投与(administration), する(do), 血小板(platelet), 作用(action), 現れる(appear) 低,用,量,の,を,投,与,す,る,と,抗,血,小,板,作,用,が,現,れ,る, する,ると,れる ASA means “acetylsalicylic acid” < accuracy character unigram/bigram