高性能・日本語音声認識アプリケーション 世界最高水準の音声認識エンジンを使用したアプリケーション で具体化する次世代マン・マシン・インターフェース 声によるハードウェア操作の確立・普及により具体化する 作業効率向上と、情報バリアフリーの実現 Crescent.co.LTD Copyright 2002 Crescent.co
Copyright 2002 Crescent.co.LTD 会 社 概 要 社 名: 株式会社 クレセント 設 立: 1990年(平成2年)5月2日 本 社: 〒103-0004 東京都中央区東日本橋3-4-10 ヨコヤマビル5階 Tel:03-5651-1255(代表) FAX:03-5651-1256 君津支店: 〒299-1173 千葉県君津市外箕輪2-11-10 Tel:0439-50-1811(代表) FAX:0439-50-1888 代表取締役: 古閑 睦郎 受権資本金: 4億円 払込資本金: 9,000 万円 事業内容: 1. ソフトウェア開発、販売および保守 2. パッケージソフト開発、販売および保守 3. 中小型コンピュータの販売 4. OA業務コンサルテーション、OA関連機器販売 ホームページ: http://www.crescent.co.jp Copyright 2002 Crescent.co.LTD
ご 提 案 内 容 Crescent.co.LTD Copyright 2002 Crescent.co
音声認識技術で実現する次世代インターフェース 人間と機械のコミュニケーションに声を使った、よりヒューマンなインターフェース構築 ハード・デバイス・インターフェース(キーボード・マウスなど使用) 操作が面倒 (トレーニングが必要) 情報化社会に於いてIT弱者を 生み出す危険性が大きい IT弱者の雇用機会が限定される 音声認識インターフェース 音声認識技術導入により 操作が簡単 (トレーニング不要) ⇒作業効率大幅アップ IT弱者でも簡単操作が可能 ⇒情報バリアフリー化実現 IT弱者へも雇用機会が拡大 ⇒マシン操作の得手不得手に関 わらず優秀な人材を確保 マイク これやって アレして OK! Copyright 2002 Crescent.co.LTD
音声認識技術で実現する次世代インターフェース ~具体例 音声認識技術で実現する次世代インターフェース ~具体例 AmiVoice 処理 実行 マイク内臓 リモコン 録画予約 ○×テレビ 19時から20時54分 要 求 内部搭載音声認識APL 内部処理フロー 声 テキスト化 応 答 ビデオ予約なんて 簡単!簡単! PCに限らず、実装した全てのハードウェアで、声によるコマンド入力ができ、デバイス操作が一切不要となります。 AmiVoice は 株式会社アドバンスド・メディアの登録商標です。 Copyright 2002 Crescent.co.LTD
使用するエンジンの性能について Crescent.co.LTD ~ 高性能を裏付ける技術的背景 Copyright 2002 Crescent.co
Copyright 2002 Crescent.co.LTD 音声誤認の三大要因 音声誤認 動作不良 誤認要因 声のゆらぎ ・緊張 雑 音 ・車の音、など 不要語 ・「あぁ」「えぇ」など 従来の 音声認識 エンジン アプリケーション 正常動作! OK! OK! アプリケーション AmiVoice 従来は、上記・誤認要因が原因となり、安定した動作が得られず、実用レベルを クリアできる音声認識エンジンは存在しませんでした。 AmiVoice は米・国防省の豊潤な研究予算投与 により、これら要因を克服し世界最高水準の音声認識エンジンを実現 しました。 Copyright 2002 Crescent.co.LTD
Copyright 2002 Crescent.co.LTD 米・国防省で鍛えられた確かな性能 ② 国防省コンテスト主催 3年連続世界一位の認識率を獲得 米・国防省 ① 兵器音声化による、国防力 の増強を目的に、民間より 高性能認識エンジンを模索 認識エンジン ⑤ 更にチューニング ④ 更に予算を投入 研究・開発 ③ 国防省採用 軍事機器搭載用の 研究のベースに AmiVoice 認識エンジン ⑥ 民間フィードバック 日本語完全対応 AmiVoice の高性能は以上の背景の上に実現されています。 Copyright 2002 Crescent.co.LTD
Copyright 2002 Crescent.co.LTD 完全不特定話者対応の認識方式を採用 ※ エンロールメント = 声の登録処理 (通常、画面表示される単語を読上げ、エンロールを行う) 他社パッケージ品 (エンロールメントが必要) 音声認識 NG エンロールメントが必要 (通常40~50分程度) エンロール実施者以外の認識率が悪い ⇒ 個人ユース向けである エンジン本体の認識性能が実用レベルに達 していない 成功するまで 繰り返し OK! AmiVoice (面倒な事前登録は一切不要!) エンロールメントが不要 (トレーニング不要) ⇒ 完全不特定話者対応、即時使用可 導入直後から高性能な処理を提供 不特定の利用者が想定されるシステムへの導入に最適! マイク OK! AmiVoice インストール Copyright 2002 Crescent.co.LTD
AmiVoice と他社製品、性能比較実例 ◆ 比較方法 無作為に抽出した3名の話者(男1名、女2名)に、AmiVoice と他社製品を使い、放射線科読影レポートを読み上げ、音声入力により所見レポート を作成した。 他社製品は、男女ともに簡易エンロールメントを実行した後、AmiVoice はインストールしたままの状態で所見レポートを音声入力により作成。 それぞれのケースで正規の文章に文字変換された確率を一覧に示す。 某社製パッケージ製品との認識率比較(放射線科読影レポート) AmiVoice 他社パッケージ品 (発話者1男簡易エンロール) 発話者1(男性) 発話者2(女性) 発話者3(女性) (発話者2女簡易エンロール) 92.45% 90.54% 89.29% 85.27% 79.05% 83.27% 69.77% 86.73% 83.35% Copyright 2002 Crescent.co.LTD
Copyright 2002 Crescent.co.LTD AmiVoice の特徴 ★ アクセント、発話スピードは一切不問! 不特定話者対応 (他社製品は、事前に一定の文章を20~30分読み上げる作業が必要です。) ★ 事前の登録処理が一切不要! エンロールメント不要 ★ 連続発話対応 ルール・グラマタイプ採用 (連続した単語発話での、コマンドレベルでの認識に対応) ★ 高い対雑音性能 信頼のノイズ対策 ★ 高機能ディクテーション 超高精度テキスト変換 (同音異義語も、文脈から判断し、最適なテキストへ自動変換) 注: 辞書ファイルに未登録の単語は認識されません。 Copyright 2002 Crescent.co.LTD
Copyright 2002 Crescent.co.LTD AmiVoice エンジンの仕組み 音声入力 アプリケーション AmiVoice エンジンランタイム Front End 音響モデル 言語モデルランタイム 認識デコーダ システム辞書 システム言語モデル テキスト ユーザ言語モデル作成ツール ユーザ辞書 ユーザ言語モデル ユーザ言語モデル作成ツール は現在開発中です ◆ AmiVoiceエンジンランタイム ・ 音声認識エンジンコア部分 ◆ 言語モデルエンジンランタイム ・ ジャンル特化した専門用語とその単語の前後の文脈を考慮した出現頻度の統計データ Copyright 2002 Crescent.co.LTD
言語モデル(登録辞書ファイル)について (1) 言語モデル(登録辞書ファイル)について (1) 政治経済 言語モデル AmiVoice マイク 国会閉会直後の ★月◎日にも・・・ のお話 医療 政治経済なら 大丈夫! 医療関係の言葉 じゃないと、よく わかりません 医療 言語モデル 政治経済 AmiVoice 医療も政治・経済もOKです 日本語は複雑な言語なので、業種毎、場面毎に使われる言葉にはそれぞれ特徴があります。 AmiVoice は政治経済ニュース、芸能ニュース etc… の各ジャンルに分けて作成した言語モデル を搭載し、認識率を高めています。 複数のジャンルの言語モデルを実装すると、複数のジャンルで高い認識率が得られます。 Copyright 2002 Crescent.co.LTD
言語モデル(登録辞書ファイル)について (2) 言語モデル(登録辞書ファイル)について (2) 標準日本語 言語モデル 基本的日本語 言語モデル 約400語彙登録済 2002年4月現在 政治・経済 放射線科用 会議システム用 標準搭載される基本日本語言語モデルに、各ジャンルに特化した辞書ファイルを 追加する事で、複数のジャンルでの認識率が向上 します。 Copyright 2002 Crescent.co.LTD
稼動中の AmiVoice 実装システムのご紹介 ~ 稼動中の音声認識アプリケーション具体例 試験稼動を含む Crescent.co.LTD Copyright 2002 Crescent.co
Copyright 2002 Crescent.co.LTD 実例1 ~企業・公共機関HP GOOD! 会社概要 見たいページ名 を読上げるだけ マイク マイク 音声認識HPのメリット IT弱者の方でも、発話のみでWEB上の目的の情報に瞬時に、且つ、簡単にアクセスが可能。 入力デバイス操作が不要となり、一定時間内の収集可能情報量が飛躍的に向上する。 階層の深いHPのサイトでも、ディレクトリ概念を必要とせず直感的な画面遷移が可能となる。 アンケート等、入力フォームのデータ入力が格段に容易になる。 採用団体 : 株式会社クレセント / Galliver / everyD.com 富津市市役所 / 君津市市役所 他 Copyright 2002 Crescent.co.LTD
Copyright 2002 Crescent.co.LTD 実例2 ~オンライン商取引への活用 めんどくさい WEB入力画面 通常のデバイス入力 (キーボード・マウス) マイク 来週の水曜日 羽田~千歳まで ・・・・・ 音声入力 簡単! マイク WEB入力の音声化、そのメリット キーボード・マウス操作が不要になり、入力作業時間が大幅に短縮される。 機械操作の苦手な主婦層、IT弱者も簡単にWEBショッピングの利便性を享受できる。 エージェントとの対話形式での入力によりインタラクティブな入力方式を提供。 Copyright 2002 Crescent.co.LTD 採用団体 : everyD.com 他
実例3 ~業務ディクテーション技術の福祉への応用 実例3 ~業務ディクテーション技術の福祉への応用 全難聴の 理事長の・・・・ 全難聴の理事長の・・・・・・ 講演内容を リアルタイムで テロップ表示 講演者 大型モニタ デモンストレーション : 第七回全国難聴者採福祉大会 第七回全国難聴者福祉大会 ステージ上の講演者の講演内容を、リアルタイムで大型モニタにテロップ表示し、全難聴の皆様に、講演 内容を同時通訳の如く伝達した。 Speech to Text 技術の応用 各種ドキュメント(議事録、所見レポート)作成時にデバイス操作が不要になり、作業時間が大幅に短 縮される。 Copyright 2002 Crescent.co.LTD
実例4 ~業務ディクテーション技術の医療への応用 実例4 ~業務ディクテーション技術の医療への応用 この患者の場合、胃に黒い筋 が確認できる。・・・・・・・・ ・・・・・おそらくストレスが原因 の急性胃炎であると思われる。 病症所見 この患者の場合、 胃に黒い筋が確認できる。・・・・・・・・ ・・・・・おそらくストレスが原因の急性胃炎であると思われる。 AmiVoice 搭載 テキスト化 ファイル出力 実装APL 医療用ディクテーションのメリット キーボード・マウス操作が不要になり、所見レポート作成時間が大幅短縮 所見レポート作成の省力化に伴う医療品質の向上。 採用団体 : 東京大学医学部 / 国立ガンセンター 他 (全国40数ヶ所の医療機関で導入済) Copyright 2002 Crescent.co.LTD
Copyright 2002 Crescent.co.LTD 実例5 ~検索システムへの応用 略称でOK! 歌手名:サザンオールスターズ 曲 名:勝手にシンドバッド 1件ヒットシマシタ 検索システム AmiVoice 「サザン」の 「勝手にシンドバッド」 早くて簡単! 検索システム応用へのメリット 従来の検索システムに見られる複雑なボタン操作が一切不要に。 ⇒ 情報弱者でも欲しい情報を声 だけで得られる。 カラオケ、図書館の書籍情報、企業の社員情報の検索など、応用分野は広範囲。 館内見取り図と連動して館内案内などへの利用も 採用団体 : 第一興商 (Big-Echo) ※ 試験運用 Copyright 2002 Crescent.co.LTD
音声認識技術に於けるビジネス・チャンス展望 高 医療・介護用品 ・電動介護機器の音 声操作 放送事業・音楽産業 ・各種機材操作 AV機器 ・録画予約 ハンズフリー化のメリット 製造業 ・工作機器 カーナビゲーション ・音声入力による安全性向上 電子楽器 ・音色パラメータ・音階音声入力 航空機、船舶 ・操作系負担軽減 認証技術 ・声紋認証 アミューズメントパーク ・各種アトラクション への応用 携帯電話 ・短縮ダイアル 他、操作系 一般家電 ・音声操作指示 玩具 ・対話形式玩具 遠隔操作系 ビジネスチャンス エリア 低 低 ユーザの満足度 高 Copyright 2002 Crescent.co.LTD
AmiVoice 製品のご紹介 Crescent.co.LTD ~ 販売パッケージのご紹介 Copyright 2002 Crescent.co
AmiVoice 販売パッケージのご紹介 WEB WEB アプリケーション用 パッケージ Windows 95/98/ME/NT4.0/2000/XP/CE Pentium 200MHz以上 64MB以上 50MB以上の空き IE5.0以上 NetScape4.0以上(除 6.0) サウンド・カード、マイク システム要件 OS CPU メモリ 空容量 ブラウザ その他 AmiVoice for Telephony 電話回線を使用したAPL向けパッケージ Windows または Linux Dialogic、NMSコミュニケーションズなど コールセンター運営に付随するハードウェア 音声認識サーバ IVR用マシン 音声ボード その他 必須設備 AmiVoice SDK 開発者用 開発KIT 一般業務アプリケーション開発向け Copyright 2002 Crescent.co.LTD