Happinessの歴史と 日本語処理のエピソード (株)平和情報センター 沓澤 尚明
Happiness/BASE4の機能 日本語自然文 分かち書き キーワード抽出 フリガナ付け ローマ字化 利用者辞書 利用者ルール 異体字変換 ローマ字ルール All Rights Reserved, Copyright ©2003 (株)平和情報センター
Happinessのスタート(1982) DBサービス事業の立ち上げ 新聞記事のディストリビューション インデキシングの自動化 [課題] 名詞句の抽出 フリガナ付け カナ端末用にフリガナ・キーワード (漢字入力不可) キーワード抽出/フリガナ付けソフトの開発 All Rights Reserved, Copyright ©2003 (株)平和情報センター
日本語解析の出発点 日本語自然文は文節の連続 Happinessの 歴史と 日本語処理の エピソード 文節 自立語 付属語(群) エピソード1 日本語解析の出発点 日本語自然文は文節の連続 文節 文節 文節 文節 Happinessの 歴史と 日本語処理の エピソード 文節 自立語 付属語(群) 自立語は無限(膨大)に存在する。 付属語の解釈により自立語を浮き出すことが出来る。 ×字種切り ~ 限界がある All Rights Reserved, Copyright ©2003 (株)平和情報センター
Happinessの販売開始(1983) 自社DB構築の運用開始 ソフト販売への展開 1983 NHK様への導入 1984 オンラインシステムとの連動 ⇒別リージョンでの稼働 (今でいうクラサバ方式) All Rights Reserved, Copyright ©2003 (株)平和情報センター
初期のフリガナ付け 単純な文字単位のフリガナ 前後がひらがなのとき訓読み それ以外は音読み エピソード2 初期のフリガナ付け 単純な文字単位のフリガナ 前後がひらがなのとき訓読み それ以外は音読み Happinessのレキシとニチホンショリのエピソード 例外の辞書化 日本▲ニホン All Rights Reserved, Copyright ©2003 (株)平和情報センター
図書館業務への適用(1985) 国立国会図書館様への導入 [条件] 名詞句の単語分割 HappinessⅡ/BASE V02L10 の開発 All Rights Reserved, Copyright ©2003 (株)平和情報センター
名詞句の単語分割 日本語処理 ⇒ 日本語/処理 文字数による分解 日本/語処/理、日/本語/処理 接尾辞での基準 日本/語/処理 エピソード3 名詞句の単語分割 日本語処理 ⇒ 日本語/処理 文字数による分解 日本/語処/理、日/本語/処理 接尾辞での基準 日本/語/処理 最終的には国語辞典の取り込み All Rights Reserved, Copyright ©2003 (株)平和情報センター
周辺ソフト(Bride,SuperBride)の提供 Happinessの拡販(1987) 日本語処理ツールとして確立 周辺ソフト(Bride,SuperBride)の提供 販売拡大 図書館(目録作成) マスコミ(映像情報、アンケート分析、…) 製造業(薬品・自動車・化学…:研究部門) All Rights Reserved, Copyright ©2003 (株)平和情報センター
解析手順の変更(V2L30) 文節切断⇒名詞句分割 Happiness/の/歴史/と/日本語処理/の/エピソード 日本語・処理 エピソード4 解析手順の変更(V2L30) 文節切断⇒名詞句分割 Happiness/の/歴史/と/日本語処理/の/エピソード 日本語・処理 名詞句確定⇒文節切断 Happinessの歴史と日本語処理のエピソード Happinessの歴史と日本語処理のエピソード 名詞 名詞 名詞 名詞 名詞 Happiness/の/歴史/と/日本語・処理/の/エピソード 名詞 名詞 名詞 名詞 名詞 付属語判別の精度向上⇒例外用語の大幅な削減 利用者辞書の親和性 All Rights Reserved, Copyright ©2003 (株)平和情報センター
Happinessのオープン化(1995) ダウンサイジングの流れ オープン化要求の高まり 1990~ Happiness/BASE3.0 (1995) クラサバ型制御の導入 異体字変換機能 活用判別精度の向上 Happiness/BASE3.5 (1998) Unicode対応 ローマ字化機能 Happiness/BASE4 (2001) All Rights Reserved, Copyright ©2003 (株)平和情報センター
エピソード5 活用形判別 V美しい▲CFI▲ウツク 美─し─∥─┬─い ├─か─┬─っ───た │ ├─ら─┬─ざ─┬─る │ ├─り ├─ず ├─れ │ ├─れ ├─ぬ └─り───ゃ ├─き │ └─ん ├─く └─ろ───う ├─け─┬─れ ├─げ └─り───ゃ ├─さ ├─す───ぎ ├─そ───う └─め All Rights Reserved, Copyright ©2003 (株)平和情報センター
ローマ字化の手順 メゾンイッコク ⇒ mezoンiッkoku (めぞん一刻) mezoンiッkoku ⇒ mezon’ikkoku エピソード6 ローマ字化の手順 2段階の変換処理 1st 変換 撥音(ん)、促音(っ)、長音(ー)は変換しない メゾンイッコク ⇒ mezoンiッkoku (めぞん一刻) 2nd 変換 撥音・促音・長音を含めた変換 「ンi」 → 「n’i」 「ッk」 → 「kk」 mezoンiッkoku ⇒ mezon’ikkoku All Rights Reserved, Copyright ©2003 (株)平和情報センター
今後の課題 固有名詞の精度向上 姓名 地勢名 ●構文からの絞り込み 分類・要約・粗筋 構文解析⇒意味解析 構文解析⇒意味解析 国際化への対応 エピソード7 今後の課題 固有名詞の精度向上 姓名 地勢名 ●構文からの絞り込み 分類・要約・粗筋 構文解析⇒意味解析 構文解析⇒意味解析 国際化への対応 ハングル ~構文が類似。可能性高い 中国語 etc. All Rights Reserved, Copyright ©2003 (株)平和情報センター