IDSによる漢字情報処理川幡　太一.

Slides:

Advertisements

Similar presentations

ゲームプログラミング講習第2章関数の使い方

Advertisements

サービス管理責任者等研修テキスト分野別講義　　　「アセスメントと　　　　　　　支援提供の基本姿勢」＜児童発達支援管理責任者＞平成２７年１０月１日.

ヒトの思考プロセスの解明を目的とするワーキングメモリの研究

第２７講オームの法則電気抵抗の役割について知るオームの法則を使えるようにする抵抗の温度変化を理解する教科書Ｐ．223～226

コラッツ予想の変形について東邦大学　理学部　情報科白柳研究室山中　陽子.

コンパイラ第3回字句解析 ― 決定性有限オートマトンの導出 ―

第5章家計に関する統計ｰ経済統計ｰ.

公共財公共経済論 II no.3 麻生良文.

VTX alignment D2 浅野秀光２０１１年１２月１５日　放射線研ミーティング.

冷却フランシウム原子を用いた電子の永久電気双極子能率探索のためのルビジウム磁力計の研究

生命情報学（８）スケールフリーネットワーク

前半戦「史上最強」風札上げクイズ.

認知症を理解し環境の重要性について考える

フッ化ナトリウムによる洗口２０１０・９・１３宮崎市郡東諸県郡薬剤師会学校薬剤師　　日高　華代子.

食品の安全性に関わる社会システム：総括健康弱者ハイリスク集団 HACCP （食肉処理場・食品工場）農場でのQAP 一般的衛生管理

規制改革とは？ ○規制改革の目的は、経済の活性化と雇用の創出によって、　活力ある経済社会の実現を図ることにあります。

地域保健対策検討会に関する私見（保健所のあり方）

公共政策大学院鈴木一人第8回　専門化する政治公共政策大学院鈴木一人

医薬品ネット販売規制について 2012年５月31日ケンコーコム株式会社.

平成２６年８月２７日（水）大阪府健康医療部薬務課医療機器グループ

平成26年度呼吸器学会からの提案結果（オレンジ色の部分が承認された提案）新規提案既収載の変更免疫組織化学染色、免疫細胞化学染色

エナジードリンクの危険性 2015年6月23日経営学部市場戦略学科MR３１９５稲沢珠依.

自動吸引は在宅を変えるか大分協和病院　院長　　　　　　　　山本　真.

毎月レポートビジネスの情報（2016年7月号）.

医療の歴史と将来医療と医薬品産業個人的経験 3. 「これからの医療を考える」（1）医薬品の研究開発－タクロリムスの歴史－

社会福祉調査論第4講２.社会調査の概要 11月２日.

2015年12月28日－2016年3月28日掲載分.

2010度民事訴訟法講義補論関西大学法学部教授栗田　隆.

腫瘍学概論埼玉医科大学国際医療センター包括的がんセンター緩和医療科/緩和ケアチーム奈良林至

“企業リスクへの考え方に変化を求められています。トータルなリスクマネジメント・サービスをプロデュースします。“

情報漏えい経済情報学科 E 　西村　諭 E 　釣　洋平.

金融班（ミクロ）.

第11回 2009年12月16日今日の資料＝A4・4枚＋解答用紙期末試験：2月3日（水）N2教室

【ＡＢＬ用語集】（あいうえお順） No 用語解説 12 公正市場価格 13 債権 14 指名債権 15 事業収益資産 16 集合動産 17

基礎理論(3) 情報の非対称性と逆選択公共政策論II No.3 麻生良文.

浜中健児昭和４２年３月２７日生まれ東京都在住株式会社ピー･アール･エフ代表取締役（学歴) 高校：千葉県立東葛飾高校卒業

COPYRIGHT(C) 2011 KYUSHU UNIVERSITY. ALL RIGHTS RESERVED

Blosxom による CMS 構築と SEO テクニック

記入例 JAWS DAYS 2015 – JOB BOARD 会社名採用職種営業職／技術職／その他（）仕事内容待遇募集数

ネットビジネスの企業と特性 MR1127　まさ.

Future Technology活用による業務改革

ネットビジネス論（杉浦）第８回　ネットビジネスと情報技術.

g７４１００１長谷川嵩 g７４０７９６迫村光秋 g７４１０００西田健太郎 g７４１１４７小井出真聡

自然独占公共経済論 II no.5 麻生良文.

Autonomic Resource Provisioning for Cloud-Based Software

Webショップにおける webデザイン 12/6　08A1022 甲斐　広大.

物理的な位置情報を活用した仮想クラウドの構築

ハイブリッドクラウドを実現させるポイントと SCSKのOSSへの取組み

寺尾敦青山学院大学社会情報学部第12回　情報デザイン（４）情報の構造化と表現寺尾　敦青山学院大学社会情報学部

【１−１．開発計画 – 設計・開発計画】システム開発計画にはシステム開発を効率的、効果的に実行する根拠（人員と経験、開発手順、開発・導入するシステム・アプリケーション・サービス等）を記述すること。システム開発の開始から終了までの全体スケジュールを記載すること。アプリケーション機能配置、ソフトウェア、インフラ構成、ネットワーク構成について概要を示すこと。

6　日本のコーポレート・ガバナンス 2008年度「企業論」川端　望.

急成長する中国ソフトウェア産業中国ソフトウェアと情報サービス産業の規模総売上高は5年間で約5.3倍の成長

米国ユタ州ＬＤＳ病院胸部心臓外科フェローの経験

公益社団法人日本青年会議所関東地区埼玉ブロック協議会 JCの情熱(おもい)育成委員会 2011年度第1回全体委員会

次世代大学教育研究会のこれまでの活動 2005年度次世代大学教育研究大会明治大学駿河台校舎リバティタワー9階1096教室

子どもの本の情報大阪府内の協力書店の情報こちらをクリック大阪府内の公立図書館・図書室の情報

第2回産業調査小島浩道.

〈起点〉を示す格助詞「を」と「から」の選択について

広東省民弁本科高校日語専業骨幹教師研修会 ①日本語の格助詞の使い分け ②動詞の自他受身の選択について　　－日本語教育と中日カルチャーショックの観点から－名古屋大学杉村　泰.

■5Ahバッテリー使用報告事例紹介/東【その1】 ■iphon4S（晴れの昼間/AM8-PM3） ◆約1時間で68%⇒100％

『ワタシが!!』『地域の仲間で!!』市民が始める自然エネルギー!!

ポイントカードの未来形を形にした「MUJI Passport」

SAP NetWeaver を支える Microsoft テクノロジーの全貌（Appendix）

ガイダンス（内業）測量学実習　第1回.

Python超入門久保幹雄東京海洋大学.

熱力学の基礎丸山茂夫東京大学大学院工学系研究科機械工学専攻

京都民医連中央病院 CHDF学習推進委員会

資料２－④ ④下水道.

ＡｃｃｅｓｓによるＳＱＬの操作～実際にテーブルを操作してみよう！～.

Presentation transcript:

IDSによる漢字情報処理川幡　太一

IDSとは何か？構 ⿰ ⿰木冓木冓 ⿰木⿱𠀎冉 ⿱ ⿱𠀎冉𠀎冉「漢字の構造」の表現 Ideographic Description Sequenceの略 ISO/IEC 10646:2003 Annex Fにて用法を規定構 ⿰ ⿰木冓木冓 ⿰木⿱𠀎冉 ⿱ ⿱𠀎冉𠀎冉

IDSの意義漢字構造情報の電子的表現 IDSの問題漢字字形の定義・検索に利用可能。漢字が７万文字を超えると、従来の方法では検索は困難に。異体字の照合や判定・フォント合成・文字認識・OCR等にも応用可能。 IDSの問題同じ漢字を複数の方法で表現できる。同じ符号で包摂可能な漢字を異なる符号で表現できる。

漢字データベースプロジェクト http://kanji-database.sourceforge.net/ 様々な漢字情報を収集／整理漢字字形はIDSでデータ化 UCS漢字 GB 7589/7590 の漢字チュノム拡張漢字E候補漢字日本の国字（和製漢字の辞典）ある「漢字」が符号化されているか、または上記データにあるかをIDSで判別できるか？

IDSの課題 I. 必ずしも漢字部品の全てが、符号化されているとは限らない例：乌　→ ⿹乌一（乌は符号文字にない）この問題については、台湾 CDP (Chinese Document Processing) の作成した「漢字部品外字フォント」が豊富な部品バリエーションがあり、多くの漢字の分解に利用可。 II. 特定の漢字符号に対して、IDSは必ずしもユニークにならない → 「正規化」による「比較可能性」が必要

IDSの多様性（１）分割点によるIDSの相違例傾傾傾 ⿰ ⿰ ⿲ 亻頃化頁亻匕頁 ⿰亻頃　　⿰化頁　　⿲亻匕頁

IDSの多様性（２）分割レベルによるIDSの相違例：峠峠 ⿰ ⿰ ⿱ 山𠧗山上下 ⿰山𠧗　　　⿰山⿱上下

IDSの多様性（３）垂／繞のかかる範囲の違い ⿰ ⿺ ⿸ ⿱ 麥面麥面鹿射鹿射 ⿰麥面 ⿺麥面 ⿸鹿射 ⿱鹿射

IDSの多様性（４） ⿰ ⿰ ⿱ ⿱ 忄青忄靑衛心衞心統合可能な字形の違い同じ符号が異なるIDSで表記できる場合の他にも、同じIDSが複数の符号に対応する、「重複符号化」の問題もある。

説文解字などを重視して意味的に漢字を分解しよう、という意識が働くとき、実際の物理的な分解方法とは異なるIDSが構成される可能性がある。「意味的」IDSと「表示的」IDSの違い旗旗街街 ⿸ ⿰ ⿴ ⿲ VS. VS. ⿱ 㫃其方行圭彳圭亍𠂉其説文解字などを重視して意味的に漢字を分解しよう、という意識が働くとき、実際の物理的な分解方法とは異なるIDSが構成される可能性がある。

IDSの正規化現実のIDSは、上記の５つの問題が複雑に絡み合い、「同一性」の判定をIDS文字列の単純な比較だけで行うのは困難。解決に向けての４つの手段 IDS入力ルールの明確化 IDCの統合 IDS木構造の「正規化」統合可能な漢字部品 (DC)の「正規化」または「同一視化」過去に、IRG N1154として分解アルゴリズムを提案したことがあったが、処理が重すぎた。

IDS入力ルールの明確化辧辧 ⿴ ⿰ 辡刀辛刀辛入力時のルールを、Annex F.3 に追加。重ね合わせIDSは極力避ける例：辧（説文「判也。从刀。辡聲。」）は「⿴辡刀」とせず「⿲辛刀辛」とする。辧辧 ⿴ ⿰ 辡刀辛刀辛

IDCの統合 IDSの比較の際、⿵⿸⿹は⿱に、⿺⿶⿷は⿰に統合し、また⿶はノードの左右を入れ替えて、⿱に統合する。凶凶 ⿶ ⿱ 凵㐅㐅凵

IDS木構造の正規化（１）傾傾 ⿰ ⿲ 亻 ⿰ 亻匕頁匕頁 IDSの「⿲／⿳」と「⿰／⿱」の曖昧さを避けるため、⿲ABCは⿰A⿰BC等に置き換える。傾傾 ⿰ ⿲ 亻 ⿰ 亻匕頁匕頁

IDS木構造の正規化（２）儲儲 ⿰ ⿰ ⿰ 者亻 ⿰ 亻言言者 IDSの「分割点」の曖昧さを避けるため、木のノードのIDCと、その左枝のIDCが同じ場合は、当該IDCを右側に移動する。儲儲 ⿰ ⿰ ⿰ 者亻 ⿰ 亻言言者

IDS木構造の正規化（３）（儲）（儲）（儲） ⿰ ⿰ ⿰ 信者 ⿰ 者亻 ⿰ 亻言言者前ページのルールは、ノードのIDCの左下の漢字が、当該ノードのIDCと同じIDCで分解可能な場合にも、分解して適用する。（儲）（儲）（儲） ⿰ ⿰ ⿰ 信者 ⿰ 者亻 ⿰ 「信」は「⿰亻言」と展開でき、右上ノードとIDCが一致する。亻言言者

IDS木構造の正規化（４）（儲）（儲）（儲） ⿰ ⿰ 儲亻 ⿰ 亻諸言者 IDSの縮約 IDS木の正規化後、IDS木の葉が符号化漢字(DC)の場合は、ノードのIDSをデータベースから検索、該当漢字があれば置換を行う。（儲）（儲）（儲） ⿰ ⿰ 儲亻 ⿰ 亻諸言者

IDS木構造の正規化（５） IDS木構造の正規化例（１） ⿰ ⿰ ⿰ ⿲ A ⿰ ⿰ ⿰ ⿰ ⿰ B C A1 A2 A3 B C A1 B 処理ノードのIDCが横方向に分解でき、かつその左側の文字Aが、IDSデータベース上は⿲A1A2A3と横方向に分解できる場合、Aはいったん、正規化のために分解する。ノード左の漢字をIDS木構造に分解した場合は、そのノードに対しても正規化処理を再帰反復実行する。 A1 A2 A3

移動後、処理ノードを右側ノードに移動し、同様の処理を再帰反復する。 IDS木構造の正規化（６） IDS木構造の正規化例（２） ⿰ ⿰ ⿰ 一致 ⿰ ⿰ ⿰ ⿰ A1 A1 一致 ⿰ ⿰ ⿰ A1 B C ⿰ A2 A2 A3 A2 A3 B C A3 ⿰ B C 処理ノードの左側が同じIDCの場合、当該IDCの左側を処理ノードの左側（A1)に、右側を新設した処理ノード右側ノードの左側に、処理ノード右側を新設ノードの右側に移動する。移動後、処理ノードを右側ノードに移動し、同様の処理を再帰反復する。

IDS木構造の正規化（６） IDS木構造の正規化例（３） ⿰ ⿰ ⿰ ⿰ ⿰ ⿰ A1 A1 A1 ⿰ ⿰ A2 A2 A2 X A3 ⿰ ⿰BC B C ⿰BCがIDSデータベースに存在していなくても、⿰A3⿰BCに対して、Xがデータベースに存在する場合がある。処理ノードの左右がDCの場合、IDCとの組み合わせで、IDSのデータベース（ハッシュまたはトライ木）を検索する。該当漢字が検索できない場合は文字列を上ノードに返す。

DC部品の正規化（１）漢字の構成部品として「同等」と考えられるものが存在する。異符号を持つ同等な部品の判定には２つの方法がある。 IDSデータの格納時に「片寄せ」正規化メリット：単純／高速デメリット：硬直的／片寄せ処理の無限ループ化を防止する方法が必要 IDSデータ比較時に全「同等パターン」組み合わせを生成、全比較メリット：柔軟性／応用性が高いデメリット：比較処理が複雑で遅くなる。

DC部品の正規化（２）片寄せ時の無限ループ問題対策として、同等と考えられる部品のうち、「画数がもっとも小さいもの」に寄せる。臭犬 ⿱ 「犬／大」のような部品は、同等とみなして「犬」に寄せると、「大」と「丶」に分解され、分解がループする。対策として、同等と考えられる部品のうち、「画数がもっとも小さいもの」に寄せる。「漢字画数データベース」を整備臭犬分解分解 ⿱ ⿺ 片寄せ正規化自　　大片寄せ正規化大　　丶無限ループ化

IDS正規化アルゴリズムのまとめ IDS木構造の最上位ノードから正規化処理を行う IDS木構造の最上位ノードから文字合成処理を行う。対象ノードのIDCが⿵⿶⿷⿸⿹⿺／⿲⿳ならばIDCを正規化する。対象ノードのIDCと、左側IDCが一致したら、木の組み替えを行う。（⿰⿰ABC → ⿰A⿰BC) 対象ノードのIDCと、左側文字の潜在IDCが同じならば、左側ノード文字のIDS分解と正規化を行う。対象ノードの左側DCを（片寄せの場合は）正規化し、右側ノードを対象ノードにして再起的に処理を行う。左右のノードがDCのノードに到達したら終了。 IDS木構造の最上位ノードから文字合成処理を行う。対象ノードの全子ノードがDC/IDSならば、ノード全体でIDSを構築してIDSデータベースを検索する。符号化漢字がヒットしたらその文字列を返す。符号化漢字がヒットしない場合は、IDSをそのまま返す。対象ノードの子ノードが木構造なら再帰処理を行う処理終了時には正規化IDSが完成

本アルゴリズムの特徴アルゴリズムが単純（全分解して、可能性のある全パターンを検索する方法※に比較した場合）再帰を使えば非常に短いコードで記述可能。高速動作低メモリ消費 ※ IRG N1154で発表し、IRGにおける重複漢字チェックに使用したアルゴリズム

まとめ IDSは漢字構造を記述。（部品としてはCDP外字が便利） IDSは漢字の検索／照合／フォント合成／OCRなど、様々な応用が考えられる。 IDSによる照合処理には正規化が必要。 IDSの正規化には、「意味的 vs. 表示的IDS」「分割点」「IDCの正規化」「DCの正規化」の問題がある。本発表で提案するアルゴリズムは、上記の課題を高速・低メモリで解決することを可能にする。