Happinessの歴史と 日本語処理のエピソード (株)平和情報センター 沓澤 尚明.

Slides:



Advertisements
Similar presentations
All Rights Reserved, Copyright © 2001 GeoBasic® & IIMS® Networking GIS データ共有型 GIS 2001年2月 ジーイーネット 株式会社.
Advertisements

英作文支援システムの 構築に関する研究 平成 15 年 11 月 18 日 ( 火 ) A1 グループ M2 永易 稔 中間発表.
2000/Mar/22 第 136 回自然言語処理研究会 1 Unicode を用いた N-gram 索引の 一実現方式とその評価 原田昌紀・風間一洋・佐藤進也 日本電信電話 ( 株 ) 未来ねっと研究所.
自然言語処理 平成 24 年 11 月 5 日 (No5)- 東京工科大学 コンピュータサイエンス学部 亀田弘之.
オープン&ビッグデータ活用・地方創生推進機構 事務局 オープン&ビッグデータ活用・地方創生推進機構 評価版ツールの状況報告 平成26年度第3回 技術委員会 資料3-1.
1 株式会社システムズリサーチ EasyServlet 関連資料 All Rights Reserved, Copyright(C)2014 株式会社システムズ リサーチ innoRules を活用した ノンプログラミング Web 開発 株式会社システムズリサーチ.
中小企業診断士 野田 幸紀 2010 年 2 月 10 日(水) データ分析をする前に知っておきたいノウハウ (ACCESS初級編)
大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
東京工科大学 コンピュータサイエンス学部 亀田弘之
2003年9月19日 株式会社リコー ソリューション計画センター 宮本 崇夫
自然言語処理:第3回 1.前回の確認 2.構文解析 3.格文法.
最大エントロピーモデルに基づく形態素解析と辞書による影響
HG/PscanServシリーズ Acrobatとなにが違うのか?
富山大学 公開講座 2008 「QRコードを作ろう!」 ~ QRコードを作ろう! ~.
ヘルスケア連動型 市販薬検索システム 研究者 : 加納 えり 指導教員 : 越田 高志.
形態素周辺確率を用いた 分かち書きの一般化とその応用
④CiNii ⑤NDL-OPAC(雑誌記事) ⑥日経BP
合同会社IT政策調査研究所 All Rights Reserved.
知識情報演習Ⅲ(後半第1回) 辻 慶太(水)
KeyGraphを活用した 食品安全リスクの 早期警告支援
連想概念辞書の構築 感性語の収集 ニューラルネットによる実装 マルチモーダル対話システム 漢字フォントの合成
動詞と格要素の共起と 名詞の出現パターンを用いた 事態性名詞の項構造解析
テキストマイニング, データマイニングと 社会活動のトレース
1.自然言語処理システム 2.単語と形態素 3.文節と係り受け
情報処理 第2回.
4Y-4 印象に残りやすい日本語パスワードの合成法
情報基礎(Week7) ≪PowerPoint 2007を使ったドキュメント作成の基本≫
2016年3月10日(木) 内閣官房 情報通信技術(IT)総合戦略室
図書館システムの歴史と 日本語処理を考える
情報検索演習の基礎 1.どういう検索をするのか コンピュータを用いた検索である
東京工科大学 コンピュータサイエンス学部 亀田弘之
形態素解析および係り受け解析・主語を判別
DixChange プロジェクト ~辞書共通化の試み~
日本大学 文理学部 情報システム解析学科 谷研究室 益田真太郎
e-BASE Enterprise システム運用イメージ図
 データベースによる並列処理 情報論理工学研究室  三宅健太.
アクセスログ解析 専修大学 ネットワーク情報学部.
動詞の共起パターンを用いた 動作性名詞の述語項構造解析
1月19日 辞書 自然言語処理における辞書の役割 機械辞書設計の要点 辞書の種類と用途.
「設計~生産準備~製造~販売~保守・保全」 まで
情報管理論 2018/11/9 情報分析の道具 2018/11/9 情報分析の道具 情報分析の道具.
自然言語処理及び実習 第11回 形態素解析.
図書館システムの歴史と日本語処理 紅林 徹也 ~ 大規模目録データベース ~ 株式会社 日立製作所 公共システム事業部
大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換
Javaクラスの利用関係を用いた ソフトウェア部品のカテゴリ階層構築法
デュアルモニタ時8画面分割まで、通常4画面分割まで
図書館システムと日本語との 格闘の歴史(過去、現在、未来) -CALISを中心にして-
思考支援ツールを用いた 情報処理技術知識の学習方式
WIP中間発表 画像解析を用いた メイドの為の 無許可撮影通知システム
リコー「LIMEDIO」の紹介 LIMEDIOにおけるZ39.50の適用事例
ERPとグローバル展開 © , all rights reserved by NetCommerce & applied marketing.
Training day 1 タッチパネル 20秒以内に1~20までの数字を 順に指でタッチしてください。 効果: 目の有効視野の拡大 目の焦点を合わせる能力の向上 集中力を高める.
東京大学OPAC Plus “言選Web” -関連学術用語による日本語文献情報への 簡易ナビゲーションシステム-
大規模データによる未知語処理を統合したスケーラブルな仮名漢字変換
コードクローン検出ツールを用いた ソースコード分析システムの試作と プログラミング演習への適用
All Rights Reserved, Copyright © 2004, Kobayashi
初心者のための補足 キーボード・マウスの基本操作と 日本語入力
テキストマイニング, データマイニングと 社会活動のトレース
東京工科大学 コンピュータサイエンス学部 亀田弘之
東京工科大学 コンピュータサイエンス学部 亀田弘之
東京工科大学 コンピュータサイエンス学部 亀田弘之
A-17 検索履歴のプライバシーを秘匿した ユーザクラスタリング
大規模コーパスに基づく同義語・多義語処理
自然言語処理2015 Natural Language Processing 2015
資料3-2 平成26年度 第3回技術委員会資料 次年度テーマの検討
ソフトウェア理解支援を目的とした 辞書の作成法
自然言語処理2016 Natural Language Processing 2016
mi-8. 自然言語処理 人工知能を演習で学ぶシリーズ(8)
識別子の読解を目的とした名詞辞書の作成方法の一試案
情報処理Ⅱ 第3回 2004年10月19日(火).
Presentation transcript:

Happinessの歴史と 日本語処理のエピソード (株)平和情報センター 沓澤 尚明

Happiness/BASE4の機能 日本語自然文 分かち書き キーワード抽出 フリガナ付け ローマ字化 利用者辞書 利用者ルール 異体字変換 ローマ字ルール All Rights Reserved, Copyright ©2003 (株)平和情報センター

Happinessのスタート(1982) DBサービス事業の立ち上げ 新聞記事のディストリビューション インデキシングの自動化 [課題] 名詞句の抽出 フリガナ付け カナ端末用にフリガナ・キーワード (漢字入力不可) キーワード抽出/フリガナ付けソフトの開発 All Rights Reserved, Copyright ©2003 (株)平和情報センター

日本語解析の出発点 日本語自然文は文節の連続 Happinessの 歴史と 日本語処理の エピソード 文節 自立語 付属語(群) エピソード1 日本語解析の出発点 日本語自然文は文節の連続 文節 文節 文節 文節 Happinessの 歴史と 日本語処理の エピソード 文節 自立語 付属語(群) 自立語は無限(膨大)に存在する。 付属語の解釈により自立語を浮き出すことが出来る。 ×字種切り ~ 限界がある All Rights Reserved, Copyright ©2003 (株)平和情報センター

Happinessの販売開始(1983) 自社DB構築の運用開始 ソフト販売への展開 1983 NHK様への導入 1984 オンラインシステムとの連動 ⇒別リージョンでの稼働 (今でいうクラサバ方式) All Rights Reserved, Copyright ©2003 (株)平和情報センター

初期のフリガナ付け 単純な文字単位のフリガナ 前後がひらがなのとき訓読み それ以外は音読み エピソード2 初期のフリガナ付け 単純な文字単位のフリガナ 前後がひらがなのとき訓読み それ以外は音読み Happinessのレキシとニチホンショリのエピソード 例外の辞書化 日本▲ニホン All Rights Reserved, Copyright ©2003 (株)平和情報センター

図書館業務への適用(1985) 国立国会図書館様への導入 [条件] 名詞句の単語分割 HappinessⅡ/BASE V02L10 の開発 All Rights Reserved, Copyright ©2003 (株)平和情報センター

名詞句の単語分割 日本語処理 ⇒ 日本語/処理 文字数による分解 日本/語処/理、日/本語/処理 接尾辞での基準 日本/語/処理 エピソード3 名詞句の単語分割 日本語処理 ⇒ 日本語/処理 文字数による分解 日本/語処/理、日/本語/処理 接尾辞での基準 日本/語/処理 最終的には国語辞典の取り込み All Rights Reserved, Copyright ©2003 (株)平和情報センター

周辺ソフト(Bride,SuperBride)の提供 Happinessの拡販(1987) 日本語処理ツールとして確立 周辺ソフト(Bride,SuperBride)の提供 販売拡大 図書館(目録作成) マスコミ(映像情報、アンケート分析、…) 製造業(薬品・自動車・化学…:研究部門) All Rights Reserved, Copyright ©2003 (株)平和情報センター

解析手順の変更(V2L30) 文節切断⇒名詞句分割 Happiness/の/歴史/と/日本語処理/の/エピソード 日本語・処理 エピソード4 解析手順の変更(V2L30) 文節切断⇒名詞句分割 Happiness/の/歴史/と/日本語処理/の/エピソード 日本語・処理 名詞句確定⇒文節切断 Happinessの歴史と日本語処理のエピソード Happinessの歴史と日本語処理のエピソード 名詞 名詞 名詞 名詞 名詞 Happiness/の/歴史/と/日本語・処理/の/エピソード 名詞 名詞 名詞 名詞 名詞 付属語判別の精度向上⇒例外用語の大幅な削減 利用者辞書の親和性 All Rights Reserved, Copyright ©2003 (株)平和情報センター

Happinessのオープン化(1995) ダウンサイジングの流れ オープン化要求の高まり 1990~ Happiness/BASE3.0 (1995) クラサバ型制御の導入 異体字変換機能 活用判別精度の向上 Happiness/BASE3.5 (1998) Unicode対応 ローマ字化機能 Happiness/BASE4 (2001) All Rights Reserved, Copyright ©2003 (株)平和情報センター

エピソード5 活用形判別 V美しい▲CFI▲ウツク 美─し─∥─┬─い       ├─か─┬─っ───た       │   ├─ら─┬─ざ─┬─る       │   ├─り ├─ず ├─れ       │   ├─れ ├─ぬ └─り───ゃ       ├─き │   └─ん           ├─く └─ろ───う           ├─け─┬─れ               ├─げ └─り───ゃ           ├─さ                   ├─す───ぎ               ├─そ───う               └─め             All Rights Reserved, Copyright ©2003 (株)平和情報センター

ローマ字化の手順 メゾンイッコク ⇒ mezoンiッkoku (めぞん一刻) mezoンiッkoku ⇒ mezon’ikkoku エピソード6 ローマ字化の手順 2段階の変換処理 1st 変換 撥音(ん)、促音(っ)、長音(ー)は変換しない メゾンイッコク ⇒ mezoンiッkoku (めぞん一刻) 2nd 変換 撥音・促音・長音を含めた変換 「ンi」 → 「n’i」 「ッk」 → 「kk」 mezoンiッkoku ⇒ mezon’ikkoku All Rights Reserved, Copyright ©2003 (株)平和情報センター

今後の課題 固有名詞の精度向上 姓名 地勢名 ●構文からの絞り込み 分類・要約・粗筋 構文解析⇒意味解析 構文解析⇒意味解析 国際化への対応 エピソード7 今後の課題 固有名詞の精度向上 姓名 地勢名 ●構文からの絞り込み 分類・要約・粗筋 構文解析⇒意味解析 構文解析⇒意味解析 国際化への対応 ハングル ~構文が類似。可能性高い 中国語 etc. All Rights Reserved, Copyright ©2003 (株)平和情報センター