Pictlet #2 音声認識ロボット アイデアクラフト 開米瑞浩 アイデアクラフト 開米瑞浩 本書は音声認識ロボットに関する図解表現方法を分析・例示したピクトレットです。 本書の著作権は開米瑞浩が保持しますが、図版の引用にあたって著作権表記をしていただく必要はありません。本書の図版は自由に引用/改変使用可能です。 本書の内容についての技術的正確性は保証しません。 本書についての誤りの指摘や改善提案、別案の提供は末尾記載の連絡先までお願いします。
箇条書きテキスト 今回のテキストはこれ。実は通常の文章として書いたものを一文ごとに切っただけのもの。 S社が開発した家庭用ロボットフォン(人間と対話する機能を持ったロボット型 スマートフォン)はローカルとクラウドの2つの音声認識エンジンを持っている。 ローカル認識エンジンの辞書は使用頻度の高い語彙を収録しており、通信オー バーヘッドもないため使用者が使う日常表現を高精度に認識できる。 一方、クラウド認識エンジンは豊富な語彙を収録した辞書と高性能CPUにより新 語・専門用語なども認識可能。 使用者が声をかけると、ロボットフォンは常に両方のエンジンを使って認識処理 を行い、どちらの結果がより適切かを判定して片方を採用した上で、さらにロ ボットフォンへの命令として解析するモジュールへ処理を引き継ぐ仕組みであ る。 (出典:本事例用に開米が執筆したもの)
大まかにフロー図だな、と見当をつける 細かいことは脇に置いて、ざっくり見当をつけることが大事 これはフロー図になりそうだな その「ざっくり見当」を つけられないという場合、知識と場数のどちらかが 不足しています
パターン 1 今回のテキストを図解した例です ローカル認識エンジン 辞書 アクセプター 音声 認識結果 認識結果(確定) 計算資源 コマンドアナライザー クラウド認識エンジン 豊富な語彙数を収録 高性能CPUを 使用可能 使用頻度の高い 語彙を収録 通信オーバー ヘッドがない 新語・専門用語 なども認識可能 使用者がよく使う 日常表現を 高精度に認識 どちらの結果を採用するかを判定する 入力音声は常に両方の エンジンで解析される それをロボットフォンへの 命令として解析する
図解するとたいてい「穴」ができる 「フローになる」と「途中で2系統に分かれる」の2つがわかると これに近い図は書けますが、いざ書き出すとあちこち「穴」が できるのが普通です ローカル認識エンジン 辞書 音声 認識結果 クラウド認識エンジン 豊富な語彙数を収録 高性能CPUを 使用可能 使用頻度の高い 語彙を収録 通信オーバー ヘッドがない 新語・専門用語 なども認識可能 使用者がよく使う 日常表現を 高精度に認識 どちらの結果を採用するかを判定する 入力音声は常に両方の エンジンで解析される それをロボットフォンへの 命令として解析する 「穴」とは、原文に記載が無く、図を書いてみると空白になる部分
「穴」の部分を補ってみる パターン1では「穴」の部分に「アクセプター」「コマンドアナライザー」など適当な名前をつけて補いましたが、この方法が使える場面は多くはありません(勝手に名前をつけられないことが多いため)。 ローカル認識エンジン 辞書 アクセプター 音声 認識結果 認識結果(確定) 計算資源 コマンドアナライザー クラウド認識エンジン 豊富な語彙数を収録 高性能CPUを 使用可能 使用頻度の高い 語彙を収録 通信オーバー ヘッドがない 新語・専門用語 なども認識可能 使用者がよく使う 日常表現を 高精度に認識 どちらの結果を採用するかを判定する 入力音声は常に両方の エンジンで解析される それをロボットフォンへの 命令として解析する
でも名前をつける努力はしましょう 勝手に名前をつけられない場合が多いですが、でも名前をつけてみるのは非常に大事なので、「穴」を見つけたらぜひやってみてください。適切な名前をつけるためにはその部分の意味あいを理解している必要があるため非常に難しく、その分、理解を深めるよいきっかけになるからです。 音声 入力音声は常に両方の エンジンで解析される ローカル認識エンジン クラウド認識エンジン 使用頻度の高い 語彙を収録 辞書 辞書 豊富な語彙数を収録 通信オーバー ヘッドがない 高性能CPUを 使用可能 計算資源 計算資源 使用者がよく使う 日常表現を 高精度に認識 認識結果 認識結果 新語・専門用語 なども認識可能 アクセプター どちらの結果を採用するかを判定する 認識結果(確定) それをロボットフォンへの 命令として解析する コマンドアナライザー
パターン 2 名前をつけられない場合は適宜調整します 音声 ローカル認識エンジン クラウド認識エンジン 認識結果 認識結果 認識結果(確定) 入力音声は常に両方の エンジンで解析される ローカル認識エンジン クラウド認識エンジン 使用頻度の高い 語彙を収録 豊富な語彙数を収録 通信オーバーヘッドなし 高性能CPUを使用可能 使用者がよく使う 日常表現を 高精度に認識 新語・専門用語 なども認識可能 認識結果 認識結果 どちらの結果を採用するかを判定 認識結果(確定) ロボットフォンへの命令として解析
「フロー&コメント」が望ましいが…… 「フロー&コメント」型は「処理の流れ」を書く場合の基本形 フロー&コメント型 アクセプター どちらの結果を採用するかを判定する しかし、この形で書くためには「フロー」部分に名前が必要になるなど、難易度が高い 認識結果(確定) それをロボットフォンへの 命令として解析する コマンドアナライザー フロー コメント 単純フロー型 どちらの結果を採用するかを判定 難しい場合は、コメントをフローの中に埋めてしまう単純フロー型でもやむを得ないでしょう 認識結果(確定) ロボットフォンへの命令として解析
お問合せおよびご感想受付 本書への質問、感想を歓迎します。下記お問い合わせ先へお送りください。 お問い合わせ先 : http://ideacraft.jp/contactnotice/ 著者プロフィール 開米 瑞浩 IT技術者として働くうちに、複雑な情報をわかりやすく表現する必要性を感じ、その技術を研究。その経験を活かし、 2003年に社会人研修業務を起業。情報を論理的に整理し図解して「見える化」する技術と習慣の啓蒙・普及に取り組んでいる。 担当プログラム □エンジニアの文章図解・情報整理術 □エンジニアのプレゼンテーション講座 □難解な文書の持ち込み改善ワークショップ 公開講座・講演等実績 中部産業連盟 日本テクノセンター SMBCコンサルティング 日経BP社 その他、電機メーカー/航空サービス/光学機器メーカー等 著書等 2017年 3月 日経SYSTEMS誌3月号 ロジカルシンキング特集 2016年12月 (書籍)エンジニアを説明上手にする本 翔泳社 2014年 6月 (書籍)エンジニアのための伝わる書き方講座 技術評論社 2010年10月 (書籍)エンジニアのための図解思考再入門講座 翔泳社