IDSによる 漢字情報処理 川幡 太一.

Slides:



Advertisements
Similar presentations
ゲームプログラミング講習 第2章 関数の使い方
Advertisements

サービス管理責任者等研修テキスト 分野別講義    「アセスメントと        支援提供の基本姿勢」 <児童発達支援管理責任者> 平成27年10月1日.
ヒトの思考プロセスの解明を目的とするワーキングメモリの研究
第27講 オームの法則 電気抵抗の役割について知る オームの法則を使えるようにする 抵抗の温度変化を理解する 教科書P.223~226
コラッツ予想の変形について 東邦大学 理学部 情報科 白柳研究室 山中 陽子.
コンパイラ 第3回 字句解析 ― 決定性有限オートマトンの導出 ―
第5章 家計に関する統計 ー 経済統計 ー.
公共財 公共経済論 II no.3 麻生良文.
VTX alignment D2 浅野秀光 2011年12月15日  放射線研ミーティング.
冷却フランシウム原子を用いた 電子の永久電気双極子能率探索のための ルビジウム磁力計の研究
生命情報学 (8) スケールフリーネットワーク
前半戦 「史上最強」風 札上げクイズ.

認知症を理解し 環境の重要性について考える
フッ化ナトリウムによる洗口 2010・9・13 宮崎市郡東諸県郡薬剤師会 学校薬剤師  日高 華代子.
食品の安全性に関わる社会システム:総括 健康弱者 ハイリスク集団 HACCP (食肉処理場・食品工場) 農場でのQAP 一般的衛生管理
規制改革とは? ○規制改革の目的は、経済の活性化と雇用の創出によって、   活力ある経済社会の実現を図ることにあります。
地域保健対策検討会 に関する私見(保健所のあり方)
公共政策大学院 鈴木一人 第8回 専門化する政治 公共政策大学院 鈴木一人
医薬品ネット販売規制について 2012年5月31日 ケンコーコム株式会社.
平成26年8月27日(水) 大阪府 健康医療部 薬務課 医療機器グループ
平成26年度 呼吸器学会からの提案結果 (オレンジ色の部分が承認された提案) 新規提案 既収載の変更 免疫組織化学染色、免疫細胞化学染色
エナジードリンクの危険性 2015年6月23日 経営学部市場戦略学科MR3195稲沢珠依.
自動吸引は 在宅を変えるか 大分協和病院 院長         山本 真.
毎月レポート ビジネスの情報 (2016年7月号).
医療の歴史と将来 医療と医薬品産業 個人的経験 3. 「これからの医療を考える」 (1)医薬品の研究開発 -タクロリムスの歴史-
社会福祉調査論 第4講 2.社会調査の概要 11月2日.
2015年12月28日-2016年3月28日 掲載分.
2010度 民事訴訟法講義 補論 関西大学法学部教授 栗田 隆.
腫瘍学概論 埼玉医科大学国際医療センター 包括的がんセンター 緩和医療科/緩和ケアチーム 奈良林 至
“企業リスクへの考え方に変化を求められています。 トータルなリスクマネジメント・サービスをプロデュースします。“
情報漏えい 経済情報学科 E  西村 諭 E  釣 洋平.
金融班(ミクロ).
第11回 2009年12月16日 今日の資料=A4・4枚+解答用紙 期末試験:2月3日(水)N2教室
【ABL用語集】(あいうえお順) No 用語 解説 12 公正市場価格 13 債権 14 指名債権 15 事業収益資産 16 集合動産 17
基礎理論(3) 情報の非対称性と逆選択 公共政策論II No.3 麻生良文.
浜中 健児 昭和42年3月27日生まれ 東京都在住 株式会社ピー・アール・エフ 代表取締役 (学歴) 高 校:千葉県立東葛飾高校 卒業
COPYRIGHT(C) 2011 KYUSHU UNIVERSITY. ALL RIGHTS RESERVED
Blosxom による CMS 構築と SEO テクニック
記入例 JAWS DAYS 2015 – JOB BOARD 会社名 採用職種 営業職/技術職/その他( ) 仕事内容 待遇 募集数
ネットビジネスの 企業と特性 MR1127 まさ.
Future Technology活用による業務改革
ネットビジネス論(杉浦) 第8回 ネットビジネスと情報技術.
g741001 長谷川 嵩 g740796 迫村 光秋 g741000 西田 健太郎 g741147 小井出 真聡
自然独占 公共経済論 II no.5 麻生良文.
Autonomic Resource Provisioning for Cloud-Based Software
Webショップにおける webデザイン 12/6 08A1022 甲斐 広大.
物理的な位置情報を活用した仮想クラウドの構築
ハイブリッドクラウドを実現させるポイントと SCSKのOSSへの取組み
寺尾 敦 青山学院大学社会情報学部 第12回 情報デザイン(4) 情報の構造化と表現 寺尾 敦 青山学院大学社会情報学部
【1−1.開発計画 – 設計・開発計画】 システム開発計画にはシステム開発を効率的、効果的に実行する根拠(人員と経験、開発手順、開発・導入するシステム・アプリケーション・サービス等)を記述すること。 システム開発の開始から終了までの全体スケジュールを記載すること。 アプリケーション機能配置、ソフトウェア、インフラ構成、ネットワーク構成について概要を示すこと。
6 日本のコーポレート・ガバナンス 2008年度「企業論」 川端 望.
急成長する中国ソフトウェア産業 中国ソフトウェアと情報サービス産業の規模 総売上高は5年間で約5.3倍の成長
米国ユタ州LDS病院胸部心臓外科フェローの経験
公益社団法人日本青年会議所 関東地区埼玉ブロック協議会 JCの情熱(おもい)育成委員会 2011年度第1回全体委員会
次世代大学教育研究会のこれまでの活動 2005年度次世代大学教育研究大会 明治大学駿河台校舎リバティタワー9階1096教室
子どもの本の情報 大阪府内の協力書店の情報 こちらをクリック 大阪府内の公立図書館・図書室の情報
第2回産業調査 小島浩道.
〈起点〉を示す格助詞「を」と「から」の選択について
広東省民弁本科高校日語専業骨幹教師研修会 ①日本語の格助詞の使い分け ②動詞の自他受身の選択について   -日本語教育と中日カルチャーショックの観点から- 名古屋大学 杉村 泰.
■5Ahバッテリー使用報告 事例紹介/東【その1】 ■iphon4S(晴れの昼間/AM8-PM3) ◆約1時間で68%⇒100%
『ワタシが!!』『地域の仲間で!!』 市民が始める自然エネルギー!!
ポイントカードの未来形を形にした「MUJI Passport」
SAP NetWeaver を支える Microsoft テクノロジーの全貌 (Appendix)
ガイダンス(内業) 測量学実習 第1回.
Python超入門 久保 幹雄 東京海洋大学.
熱力学の基礎 丸山 茂夫 東京大学大学院 工学系研究科 機械工学専攻
京都民医連中央病院 CHDF学習推進委員会
資料2-④ ④下水道.
Accessによる SQLの操作 ~実際にテーブルを操作してみよう!~.
Presentation transcript:

IDSによる 漢字情報処理 川幡 太一

IDSとは何か? 構 ⿰ ⿰木冓 木 冓 ⿰木⿱𠀎冉 ⿱ ⿱𠀎冉 𠀎 冉 「漢字の構造」の表現 Ideographic Description Sequenceの略 ISO/IEC 10646:2003 Annex Fにて用法を規定 構 ⿰ ⿰木冓 木 冓 ⿰木⿱𠀎冉 ⿱ ⿱𠀎冉 𠀎 冉

IDSの意義 漢字構造情報の電子的表現 IDSの問題 漢字字形の定義・検索に利用可能。 漢字が7万文字を超えると、従来の方法では検索は困難に。 異体字の照合や判定・フォント合成・文字認識・OCR等にも応用可能。 IDSの問題 同じ漢字を複数の方法で表現できる。 同じ符号で包摂可能な漢字を異なる符号で表現できる。

漢字データベースプロジェクト http://kanji-database.sourceforge.net/ 様々な漢字情報を収集/整理 漢字字形はIDSでデータ化 UCS漢字 GB 7589/7590 の漢字 チュノム 拡張漢字E候補漢字 日本の国字(和製漢字の辞典) ある「漢字」が符号化されているか、または上記データにあるかをIDSで判別できるか?

IDSの課題 I. 必ずしも漢字部品の全てが、符号化されているとは限らない 例:乌 → ⿹乌一(乌は符号文字にない) この問題については、台湾 CDP (Chinese Document Processing) の作成した「漢字部品外字フォント」が豊富な部品バリエーションがあり、多くの漢字の分解に利用可。 II. 特定の漢字符号に対して、IDSは必ずしもユニークにならない → 「正規化」による「比較可能性」が必要

IDSの多様性(1) 分割点によるIDSの相違 例 傾 傾 傾 ⿰ ⿰ ⿲ 亻 頃 化 頁 亻 匕 頁 ⿰亻頃  ⿰化頁  ⿲亻匕頁

IDSの多様性(2) 分割レベルによるIDSの相違 例: 峠 峠 ⿰ ⿰ ⿱ 山 𠧗 山 上 下 ⿰山𠧗   ⿰山⿱上下

IDSの多様性(3) 垂/繞のかかる範囲の違い ⿰ ⿺ ⿸ ⿱ 麥 面 麥 面 鹿 射 鹿 射 ⿰麥面 ⿺麥面 ⿸鹿射 ⿱鹿射

IDSの多様性(4) ⿰ ⿰ ⿱ ⿱ 忄 青 忄 靑 衛 心 衞 心 統合可能な字形の違い 同じ符号が異なるIDSで表記できる場合の他にも、同じIDSが複数の符号に対応する、「重複符号化」の問題もある。

説文解字などを重視して意味的に漢字を分解しよう、という意識が働くとき、実際の物理的な分解方法とは異なるIDSが構成される可能性がある。 「意味的」IDSと「表示的」IDSの違い 旗 旗 街 街 ⿸ ⿰ ⿴ ⿲ VS. VS. ⿱ 㫃 其 方 行 圭 彳圭亍 𠂉 其 説文解字などを重視して意味的に漢字を分解しよう、という意識が働くとき、実際の物理的な分解方法とは異なるIDSが構成される可能性がある。

IDSの正規化 現実のIDSは、上記の5つの問題が複雑に絡み合い、「同一性」の判定をIDS文字列の単純な比較だけで行うのは困難。 解決に向けての4つの手段 IDS入力ルールの明確化 IDCの統合 IDS木構造の「正規化」 統合可能な漢字部品 (DC)の「正規化」または「同一視化」 過去に、IRG N1154として分解アルゴリズムを提案したことがあったが、処理が重すぎた。

IDS入力ルールの明確化 辧 辧 ⿴ ⿰ 辡 刀 辛 刀 辛 入力時のルールを、Annex F.3 に追加。 重ね合わせIDSは極力避ける 例:辧(説文「判也。从刀。辡聲。」)は「⿴辡刀」とせず「⿲辛刀辛」とする。 辧 辧 ⿴ ⿰ 辡 刀 辛 刀 辛

IDCの統合 IDSの比較の際、⿵⿸⿹は⿱に、⿺⿶⿷は⿰に統合し、また⿶はノードの左右を入れ替えて、⿱に統合する。 凶 凶 ⿶ ⿱ 凵 㐅 㐅 凵

IDS木構造の正規化(1) 傾 傾 ⿰ ⿲ 亻 ⿰ 亻 匕 頁 匕 頁 IDSの「⿲/⿳」と「⿰/⿱」の曖昧さを避けるため、⿲ABCは⿰A⿰BC等に置き換える。 傾 傾 ⿰ ⿲ 亻 ⿰ 亻 匕 頁 匕 頁

IDS木構造の正規化(2) 儲 儲 ⿰ ⿰ ⿰ 者 亻 ⿰ 亻 言 言 者 IDSの「分割点」の曖昧さを避けるため、木のノードのIDCと、その左枝のIDCが同じ場合は、当該IDCを右側に移動する。 儲 儲 ⿰ ⿰ ⿰ 者 亻 ⿰ 亻 言 言 者

IDS木構造の正規化(3) (儲) (儲) (儲) ⿰ ⿰ ⿰ 信 者 ⿰ 者 亻 ⿰ 亻 言 言 者 前ページのルールは、ノードのIDCの左下の漢字が、当該ノードのIDCと同じIDCで分解可能な場合にも、分解して適用する。 (儲) (儲) (儲) ⿰ ⿰ ⿰ 信 者 ⿰ 者 亻 ⿰ 「信」は「⿰亻言」と展開でき、右上ノードとIDCが一致する。 亻 言 言 者

IDS木構造の正規化(4) (儲) (儲) (儲) ⿰ ⿰ 儲 亻 ⿰ 亻 諸 言 者 IDSの縮約 IDS木の正規化後、IDS木の葉が符号化漢字(DC)の場合は、ノードのIDSをデータベースから検索、該当漢字があれば置換を行う。 (儲) (儲) (儲) ⿰ ⿰ 儲 亻 ⿰ 亻 諸 言 者

IDS木構造の正規化(5) IDS木構造の正規化例(1) ⿰ ⿰ ⿰ ⿲ A ⿰ ⿰ ⿰ ⿰ ⿰ B C A1 A2 A3 B C A1 B 処理ノードのIDCが横方向に分解でき、かつその左側の文字Aが、IDSデータベース上は⿲A1A2A3と横方向に分解できる場合、Aはいったん、正規化のために分解する。 ノード左の漢字をIDS木構造に分解した場合は、そのノードに対しても正規化処理を再帰反復実行する。 A1 A2 A3

移動後、処理ノードを右側ノードに移動し、同様の処理を再帰反復する。 IDS木構造の正規化(6) IDS木構造の正規化例(2) ⿰ ⿰ ⿰ 一致 ⿰ ⿰ ⿰ ⿰ A1 A1 一致 ⿰ ⿰ ⿰ A1 B C ⿰ A2 A2 A3 A2 A3 B C A3 ⿰ B C 処理ノードの左側が同じIDCの場合、当該IDCの左側を処理ノードの左側(A1)に、右側を新設した処理ノード右側ノードの左側に、処理ノード右側を新設ノードの右側に移動する。 移動後、処理ノードを右側ノードに移動し、同様の処理を再帰反復する。

IDS木構造の正規化(6) IDS木構造の正規化例(3) ⿰ ⿰ ⿰ ⿰ ⿰ ⿰ A1 A1 A1 ⿰ ⿰ A2 A2 A2 X A3 ⿰ ⿰BC B C ⿰BCがIDSデータベースに存在していなくても、⿰A3⿰BCに対して、Xがデータベースに存在する場合がある。 処理ノードの左右がDCの場合、IDCとの組み合わせで、IDSのデータベース(ハッシュまたはトライ木)を検索する。該当漢字が検索できない場合は文字列を上ノードに返す。

DC部品の正規化(1) 漢字の構成部品として「同等」と考えられるものが存在する。 異符号を持つ同等な部品の判定には2つの方法がある。 IDSデータの格納時に「片寄せ」正規化 メリット:単純/高速 デメリット:硬直的/片寄せ処理の無限ループ化を防止する方法が必要 IDSデータ比較時に全「同等パターン」組み合わせを生成、全比較 メリット:柔軟性/応用性が高い デメリット:比較処理が複雑で遅くなる。

DC部品の正規化(2) 片寄せ時の無限ループ問題 対策として、同等と考えられる部品のうち、「画数がもっとも小さいもの」に寄せる。 臭 犬 ⿱ 「犬/大」のような部品は、同等とみなして「犬」に寄せると、「大」と「丶」に分解され、分解がループする。 対策として、同等と考えられる部品のうち、「画数がもっとも小さいもの」に寄せる。 「漢字画数データベース」を整備 臭 犬 分解 分解 ⿱ ⿺ 片寄せ正規化 自  大 片寄せ正規化 大  丶 無限ループ化

IDS正規化アルゴリズムのまとめ IDS木構造の最上位ノードから正規化処理を行う IDS木構造の最上位ノードから文字合成処理を行う。 対象ノードのIDCが⿵⿶⿷⿸⿹⿺/⿲⿳ならばIDCを正規化する。 対象ノードのIDCと、左側IDCが一致したら、木の組み替えを行う。(⿰⿰ABC → ⿰A⿰BC) 対象ノードのIDCと、左側文字の潜在IDCが同じならば、左側ノード文字のIDS分解と正規化を行う。 対象ノードの左側DCを(片寄せの場合は)正規化し、右側ノードを対象ノードにして再起的に処理を行う。 左右のノードがDCのノードに到達したら終了。 IDS木構造の最上位ノードから文字合成処理を行う。 対象ノードの全子ノードがDC/IDSならば、ノード全体でIDSを構築してIDSデータベースを検索する。 符号化漢字がヒットしたらその文字列を返す。 符号化漢字がヒットしない場合は、IDSをそのまま返す。 対象ノードの子ノードが木構造なら再帰処理を行う 処理終了時には正規化IDSが完成

本アルゴリズムの特徴 アルゴリズムが単純 (全分解して、可能性のある全パターンを検索する方法※に比較した場合) 再帰を使えば非常に短いコードで記述可能。 高速動作 低メモリ消費 ※ IRG N1154で発表し、IRGにおける重複漢字チェックに使用したアルゴリズム

まとめ IDSは漢字構造を記述。(部品としてはCDP外字が便利) IDSは漢字の検索/照合/フォント合成/OCRなど、様々な応用が考えられる。 IDSによる照合処理には正規化が必要。 IDSの正規化には、「意味的 vs. 表示的IDS」「分割点」「IDCの正規化」「DCの正規化」の問題がある。 本発表で提案するアルゴリズムは、上記の課題を高速・低メモリで解決することを可能にする。