Presentation is loading. Please wait.

Presentation is loading. Please wait.

Happinessの歴史と 日本語処理のエピソード (株)平和情報センター 沓澤 尚明.

Similar presentations


Presentation on theme: "Happinessの歴史と 日本語処理のエピソード (株)平和情報センター 沓澤 尚明."— Presentation transcript:

1 Happinessの歴史と 日本語処理のエピソード (株)平和情報センター 沓澤 尚明

2 Happiness/BASE4の機能 日本語自然文 分かち書き キーワード抽出 フリガナ付け ローマ字化 利用者辞書 利用者ルール
異体字変換 ローマ字ルール All Rights Reserved, Copyright ©2003 (株)平和情報センター

3 Happinessのスタート(1982) DBサービス事業の立ち上げ 新聞記事のディストリビューション インデキシングの自動化 [課題]
名詞句の抽出 フリガナ付け カナ端末用にフリガナ・キーワード (漢字入力不可) キーワード抽出/フリガナ付けソフトの開発 All Rights Reserved, Copyright ©2003 (株)平和情報センター

4 日本語解析の出発点 日本語自然文は文節の連続 Happinessの 歴史と 日本語処理の エピソード 文節 自立語 付属語(群)
エピソード1 日本語解析の出発点 日本語自然文は文節の連続 文節 文節 文節 文節 Happinessの 歴史と 日本語処理の エピソード 文節 自立語 付属語(群) 自立語は無限(膨大)に存在する。 付属語の解釈により自立語を浮き出すことが出来る。 ×字種切り ~ 限界がある All Rights Reserved, Copyright ©2003 (株)平和情報センター

5 Happinessの販売開始(1983) 自社DB構築の運用開始 ソフト販売への展開 1983 NHK様への導入 1984
オンラインシステムとの連動 ⇒別リージョンでの稼働 (今でいうクラサバ方式) All Rights Reserved, Copyright ©2003 (株)平和情報センター

6 初期のフリガナ付け 単純な文字単位のフリガナ 前後がひらがなのとき訓読み それ以外は音読み
エピソード2 初期のフリガナ付け 単純な文字単位のフリガナ 前後がひらがなのとき訓読み それ以外は音読み Happinessのレキシとニチホンショリのエピソード 例外の辞書化 日本▲ニホン All Rights Reserved, Copyright ©2003 (株)平和情報センター

7 図書館業務への適用(1985) 国立国会図書館様への導入 [条件] 名詞句の単語分割 HappinessⅡ/BASE V02L10 の開発
All Rights Reserved, Copyright ©2003 (株)平和情報センター

8 名詞句の単語分割 日本語処理 ⇒ 日本語/処理 文字数による分解 日本/語処/理、日/本語/処理 接尾辞での基準 日本/語/処理
エピソード3 名詞句の単語分割 日本語処理 ⇒ 日本語/処理 文字数による分解 日本/語処/理、日/本語/処理 接尾辞での基準 日本/語/処理 最終的には国語辞典の取り込み All Rights Reserved, Copyright ©2003 (株)平和情報センター

9 周辺ソフト(Bride,SuperBride)の提供
Happinessの拡販(1987) 日本語処理ツールとして確立 周辺ソフト(Bride,SuperBride)の提供 販売拡大 図書館(目録作成) マスコミ(映像情報、アンケート分析、…) 製造業(薬品・自動車・化学…:研究部門) All Rights Reserved, Copyright ©2003 (株)平和情報センター

10 解析手順の変更(V2L30) 文節切断⇒名詞句分割 Happiness/の/歴史/と/日本語処理/の/エピソード 日本語・処理
エピソード4 解析手順の変更(V2L30) 文節切断⇒名詞句分割 Happiness/の/歴史/と/日本語処理/の/エピソード 日本語・処理 名詞句確定⇒文節切断 Happinessの歴史と日本語処理のエピソード Happinessの歴史と日本語処理のエピソード 名詞 名詞 名詞 名詞 名詞 Happiness/の/歴史/と/日本語・処理/の/エピソード 名詞 名詞 名詞 名詞 名詞 付属語判別の精度向上⇒例外用語の大幅な削減 利用者辞書の親和性 All Rights Reserved, Copyright ©2003 (株)平和情報センター

11 Happinessのオープン化(1995) ダウンサイジングの流れ オープン化要求の高まり 1990~
Happiness/BASE3.0 (1995) クラサバ型制御の導入 異体字変換機能 活用判別精度の向上 Happiness/BASE3.5 (1998) Unicode対応 ローマ字化機能 Happiness/BASE4 (2001) All Rights Reserved, Copyright ©2003 (株)平和情報センター

12 エピソード5 活用形判別 V美しい▲CFI▲ウツク 美─し─∥─┬─い       ├─か─┬─っ───た       │   ├─ら─┬─ざ─┬─る       │   ├─り ├─ず ├─れ       │   ├─れ ├─ぬ └─り───ゃ       ├─き │   └─ん           ├─く └─ろ───う           ├─け─┬─れ               ├─げ └─り───ゃ           ├─さ                   ├─す───ぎ               ├─そ───う               └─め             All Rights Reserved, Copyright ©2003 (株)平和情報センター

13 ローマ字化の手順 メゾンイッコク ⇒ mezoンiッkoku (めぞん一刻) mezoンiッkoku ⇒ mezon’ikkoku
エピソード6 ローマ字化の手順 2段階の変換処理 1st 変換 撥音(ん)、促音(っ)、長音(ー)は変換しない メゾンイッコク ⇒ mezoンiッkoku (めぞん一刻) 2nd 変換 撥音・促音・長音を含めた変換 「ンi」 → 「n’i」 「ッk」 → 「kk」 mezoンiッkoku ⇒ mezon’ikkoku All Rights Reserved, Copyright ©2003 (株)平和情報センター

14 今後の課題 固有名詞の精度向上 姓名 地勢名 ●構文からの絞り込み 分類・要約・粗筋 構文解析⇒意味解析 構文解析⇒意味解析 国際化への対応
エピソード7 今後の課題 固有名詞の精度向上 姓名 地勢名 ●構文からの絞り込み 分類・要約・粗筋 構文解析⇒意味解析 構文解析⇒意味解析 国際化への対応 ハングル ~構文が類似。可能性高い 中国語 etc. All Rights Reserved, Copyright ©2003 (株)平和情報センター


Download ppt "Happinessの歴史と 日本語処理のエピソード (株)平和情報センター 沓澤 尚明."

Similar presentations


Ads by Google