継続的物流ABC/ABMのための 音声認識記録システムについて 2000728 田中 裕一 流通施設計画研究室所属の田中裕一です。 本日はどうぞ宜しくお願い致します。 ではこれより私の卒業研究「継続的物流ABC/ABMのための音声認識記録システムについて」の発表を始めさせて頂きます。 指導教官 鶴田三郎 教授 黒川久幸 助教授
目次 はじめに 音声認識記録システムの開発 評価 まとめ
物流改善のための物流ABC/ABM Activity:活動(局所的な仕事の単位) コストはいくらかかっているのか? ABC:活動基準原価計算 (Activity-Based Costing ) プロセスに 無駄はないか? 物流の現場ではコスト増やミスが発生してもその原因が分からないということがしばしば起きており、物流改善の着手が難しいものとなっています。こうした問題に対するアプローチとして物流ABC/ABMの手法があり、物流業務を活動(アクティビティ)単位で捉えた分析を行います。 ABCとはActivity-Based Costingの略であり、活動基準原価計算と訳されます。アクティビティごとに原価を計算することによってコスト発生のメカニズムをつかむことができます。 一方、ABMとはActivity-Based Managementの略であり、活動基準管理と訳されます。これは活動を左右する要因である原価作用因(動作や作業時間)を設定し、この実績値を分析することにより業務改善へとつなげます。尚、ABMではABCで得られた原価情報を使用します。 中小企業庁では中小物流企業における物流改善を目的として「物流ABC準拠による物流コスト算定・効率化マニュアル」を公開しており、この図の通りアクティビティ項目を用意しています。荷物の扱いがケース単位なのかピース単位なのかによって業務内容が異なることから別々のアクティビティとして捉えられています。 ABM:活動基準管理 (Activity-Based Management ) (出所:中小企業庁「物流ABC準拠による物流コスト算定・効率化マニュアル」より作成)
作業時間データの収集 投入要素 人件費 土地・建物 人 フォークリフト格納 台車格納 資材 消耗品 機械設備 ケース目視検品 バラピッキング ABCでは各アクティビティに投入要素を割り振ります。人に関しては人件費を割り振るわけですが、割り振りにあたっては作業時間を基準とするため、作業時間のデータを収集する必要があります。 ケース機械検品 待機 袋詰め
作業日報作成の手間 頻繁に記録する場合は手間が大きい 開始と終了を 結んだ線を引く 従来、作業時間はこのような作業日報を用いて記録します。 作業記録は作業後記憶に頼って記録するよりも、リアルタイムに記録することでより正確なデータが取れます。 しかし、作業中に記録するのであれば、業務の作業を中断させることなく行われなくてはなりません。 特に記録対象が数十点(数十回)に及ぶ場合は作業の妨げとなり、記録にかかる負担が大きくなります。 このことから、継続して物流ABC/ABMを用いた分析を行うためには業務作業の妨げにならず短時間で記録を行えるツールが必要であるといえます。
研究の目的 物流ABC/ABM導入を推進 作業記録の入力にかかる負担を軽減するツールとして 音声認識を活用した記録システムを構築する 構築したシステムの有効性を明らかにする 一方、音声認識と呼ばれる音声を文字に変換する技術があり、カーナビゲーションへの入力や電子カルテの作成などに応用されています。 本研究ではこの音声認識を活用した物流ABC/ABMのための記録システムを構築すると共にその有効性を明らかにすることを目的とします。 物流ABC/ABM導入を推進
目次 はじめに 音声認識記録システムの開発 評価 まとめ
システムの設計要件 話者の特徴に合わせられる 誰にとっても使い易い 語彙の登録を柔軟に行える 物流現場の騒音に耐えうる 音声によってシステム を操作できる 自由に動き回れる システムの設計要件について説明します。 今回はこの部分に関して構築を行いました。 制御用単語として設定したキーワードを発声するまでは作業記録データベースへの書き込みはなされないようになっています。 作業者はこの制御用単語によってシステムを操作します。 また、物流では様々な専門用語が用いられており、現場独自の呼び方・略し方があるため、単語辞書データベースをテキストファイルから読み込む方式とし、容易に変更できる設計としました。 例)無線接続
システムの構成 端末 単語辞書 音声認識OCX データベース ドキュメントトーカ マイクロフォン 音声認識 プログラミング開発 処理部 ソフトウェア Visual Basic6.0 スピーカ 命令処理部 今回のシステム開発には、汎用の音声認識ソフトであるドキュメントトーカに付属する音声認識OCXを、プログラミング開発ソフトであるVisual Basic6.0に組み込んで使用しました。 作業記録データベースが先述の作業日報に該当します。 開始と終了の間隔で実働時間を、また終了と開始の間隔でロス時間等をつかめます。 作業記録 データベース Wire Or Wireless データベースソフトウェア Microsoft Access
単語辞書データベースの設定 ユーザの指定 記録フォームへ 単語辞書となるテキストを指定 認識レベルの指定 認識時間の指定 制御用単語の指定 システムの起動においては、まずユーザを指定します。 これによって単語辞書となるテキストファイルのフルパスを指定し、システムの単語辞書データベースに読み込ませます。 認識レベルの指定 認識時間の指定 制御用単語の指定
記録フォームの画面 入力形式の選択 音声認識の 開始 音声ファイル の参照 音声認識の 停止 音声ファイル 再生 音量メータ フォームの 終了 ユーザを指定すると記録フォームの画面が表示されます。 認識開始ボタンをクリックすることで音声認識が開始されます。 認識結果
書き込みが可能になったことを告げる応答音を確認 記録の手順 書き込み制御用単語を発声する 書き込みが可能になったことを告げる応答音を確認 記録項目を発声する 記録の手順について説明します。 作業者は制御用単語を発声することによってシステムを書き込み可能状態にし、続いて記録項目を発声して記録を行います。 記録が完了した場合は応答音が返され、システムは再び書き込み停止状態になります。 記録が完了したことを告げる応答音を確認
入力の一例① はじめ りゅうつう けーすにうけ 開始 顧客:流通情報工学課程 アクティビティ: ケース荷受け・検品 これより、入力の一例を示します。 グループ単位で記録することも検討したが、グループ内の作業者のアクティビティ開始(終了)のタイミングが一致しない場合やグループ内の作業者が他のアクティビティを行う場合などは記録するタイミングの捉え方が難しいものとなるため、作業者ごとに記録する設計としました。 顧客名が流通情報工学課程であり、この顧客に対するケース荷受け・検品作業開始を記録するとします。 単語辞書にはそれぞれ「りゅうつう」、「けーすにうけ」、「はじめ」と発音を定義してあります。 りゅうつう アクティビティ: ケース荷受け・検品 けーすにうけ
入力の一例② Pi ! 作業者 記録フォーム画面 マイク 制御用単語として設定してある「マイク」を発声することで、ビープ音が一度鳴ります。 これでシステムへの記録が可能になりました。
入力の一例③ PiPi ! りゅうつう けーすにうけ はじめ 作業者 記録フォーム画面 作業の記録 ID 日時 時刻 顧客 アクティビティ 開始/終了 次の記録までの時間 1 2004/01/20 2:03 流通情報工学課程 ケース荷受け・検品 開始 りゅうつう けーすにうけ はじめ PiPi ! 作業の記録 続いて記録項目を発声します。 入力が完了するとビープ音が二度鳴ります。
目次 はじめに 音声認識記録システムの開発 評価 まとめ 作業日報作成の記録方法としては用紙記入への筆記記入、ハンディ端末へのボタン入力が考えられます。この二つに音声認識記録システムによる音声入力を加えた3つの入力方法で実際に記録を行い、評価を行います。
測定の方法(用紙記入、端末入力) ①PTS(Predetermined time standard)法の基本動作を参考にして入力作業を基本動作(手をのばす、つかむ等)に分割。 ②分割した基本動作に順序を定めて、その通りに入力作業を行う。 記録用紙への筆記記入 用紙を掴む~記入する ~用紙を置く PTS法とは、人間の作業をそれを構成する基本動作に分割し、その基本動作の性質と条件に応じてあらかじめ定めておいた時間値をあてはめることによって標準時間を設定する方法です。 このPTS法を参考にして入力動作を分解しました。 そして、分解した動作に順序を定め、その入力にかかる時間を測定しました。 尚、実際の入力においては生じると思われる探索時間や思考時間は含めていません。 入力は20回行い、その平均を以って所要時間としました。 ハンディ端末へのボタン入力 端末をポケットから取り出す~ボタン入力 ~端末をポケットに仕舞う
用紙記入の想定 用紙記入についての想定を説明します。 作業員はこのような記録用紙を携帯しており、記録のタイミングごとに用紙へ点を記入します。
平均8.5秒 用紙記入の基本動作と順序 ①手が自然に下がっている状態から記録用紙及び筆記具まで手をのばす (記録用紙及び筆記具は正面の腰の高さ位置に置かれている) ②記録用紙及び筆記具をつかむ ③記入用紙を胸の位置まで運ぶ ④正面にある掛け時計(アナログ)で時刻を確認する ⑤記入欄を確認する ⑥筆記具を記入位置まで運ぶ ⑦記入する(点付け) ⑧記入用紙及び筆記具を置く ⑨手を自然な状態に下げる 赤:手の使用 青:眼の使用 入力動作はこの順序で行いました。 手をのばす、つかむといった基本動作についてPTS法を参考にしています。 今回の測定において所要時間は8.5秒でした。 平均8.5秒
端末入力の想定 続いて端末入力の想定について説明します。 作業者は記録のタイミングごとにハンディ端末へボタン入力を行います。 今回は携帯電話を端末に見立てて行いました。
平均9.9秒 端末入力の基本動作と順序 ①手が自然に下がっている状態からズボンの前ポケットまで手をのばす ②端末をつかむ ③端末をポケットから取り出す ④端末を胸の位置まで運ぶ ⑤端末のボタンを押す(まず親指がホームポジションの位置に置かれている。ここから画面を確認し、テンキーの1を親指で押した後にホームポジションに戻す。これを3度行い、最後に親指で確定ボタンを押す) ⑥端末をポケットに運ぶ ⑦端末をポケットにしまう ⑧手を自然な状態に下げる 平均9.9秒 入力動作はこの順序で行いました。 今回の測定において所要時間は9.9秒でした。 赤:手の使用 青:眼の使用
平均5.3秒 音声入力の想定・動作順序 ①書き込み制御単語を発声する ②応答音から書き込みがONになったことを確認する ③作業記録を発声する 「りゅうつう、けーすにうけ、おわり」 ④応答音から記録が完了したことを確認する 平均5.3秒 最後に音声入力の想定について説明します。 作業者は音声認識記録システムを用いて入力を行います。 測定対象は「マイク」と発声してから記録完了の応答時間を確認するまでとしました。 入力動作はこの順序で行いました。 今回の測定において所要時間は5.3秒でした。 緑:音声の使用 橙:耳の使用 環境条件 CPU CLOCK:2.66GHz 騒音40dB程度の室内
入力方法と所要時間 5.3秒 8.5秒 9.9秒 音声認識記録システム による音声入力 記録用紙への筆記記入 ハンディ端末へのボタン入力 続いて今回の測定における考察を行います。 音声入力では用紙及び端末を用いた場合と比較して約3秒程度短い時間で入力を行えました。 これは入力の前動作、後動作が少なかったためと思われます。 記録用紙への筆記記入 ハンディ端末へのボタン入力
検出成功率 5.3秒 17/20回 4.4秒 17/20回 20/20回 3.3秒 入力の所要時間 検出成功率 単語数 3 りゅうつう、 けーすにうけ、 おわり 5.3秒 85% 17/20回 単語数 2 けーすにうけ、 おわり 85% 4.4秒 17/20回 単語数 1 また、検出成功率については、今回の測定において発声したにも関わらず応答なしが単語数2と3の場合において二十回のうち3回あり、認識精度の向上が今後の課題であると言えます。 100% おわり 3.3秒 20/20回 入力の所要時間
目次 はじめに 音声認識記録システムの開発 評価 まとめ
ツールの必要性から音声認識記録システムを構築 眼や手を用いることなく記録を行えるため、 まとめ① 業務の妨げにならず記録を行える ツールの必要性から音声認識記録システムを構築 音声認識記録システムによる音声入力は 記録用紙及びハンディ端末を用いるよりも 短時間での入力が可能 眼や手を用いることなく記録を行えるため、 これらの部位を他の作業へ使用可能 業務の妨げにならずに記録を行えるツールが必要なことから、音声認識記録システムを構築しました。 用紙や端末を用いるよりも入力時間が短く済むこと、眼や手が自由になるという点において音声認識記録システムが有効であることを確認できました。
継続した物流ABC/ABMに役立つと考えられる 誤って認識されることが現在の技術では存在するため、 単語辞書を必要となる単語のみに絞ることで まとめ② 業務作業の記録が容易になり、 継続した物流ABC/ABMに役立つと考えられる 似た音を持つ意図しない単語が 誤って認識されることが現在の技術では存在するため、 単語辞書を必要となる単語のみに絞ることで 認識精度の向上につながるものと思われる その結果として物流ABC/ABMを用いた業務分析を継続して行うことに役立つと考えられます。 また実用化には認識精度の向上が課題でありますが、単語辞書を絞ることで認識精度の向上につながるものと推測されます。
今後の課題 話者の特徴に合わせられる 誰にとっても使い易い 語彙の登録を柔軟に行える 物流現場の騒音に耐えうる 特定話者に対応した音響モデルを用い、 音素レベルでの認識精度を向上させること 誤認識の修正や発声の癖を学習する 適応化技術を取り入れること 発話内容の推測を行い、 認識を助ける工夫を取り入れること 音声によってシステム を操作できる 自由に動き回れる 今後の課題としては、自由に動きまわれるよう無線での接続、 及び物流現場の騒音に耐えられる仕様にするといったシステムの高度化を図ることが挙げられます。 また、音声は個人差が大きく、内容の理解が重要なポイントであるため、発話内容の推測も必要であると思われます。 例)無線接続
ご清聴頂きありがとうございました
音声波から特徴ベクトル(短時間スペクトル)時系列を抽出する方法 振幅 音声波 時間 時間窓 フレーム周期 フレーム 特徴ベクトル
波形のパワースペクトル(母音/a/) F1 F2 F3 対数パワー F4 [dB] 周波数 〔kHz〕 0 -10 スペクトル包絡 -20 -30 -40 [dB] -50 -60 0 1 2 3 4 5 周波数 〔kHz〕
母音に対する音響モデルの例 音響モデル 入力された音が「あ」 である確率 入力された音 0.4 「あ」のモデル × 平均 × 「い」のモデル 1.0 0.0 × × × ×
語彙登録のためのテキストファイル作成 発音 表記 けーす=ケース ぴーす|ばら=ピース ばーす=バース テキストファイル K E : S U 発音 表記 けーす=ケース ぴーす|ばら=ピース ばーす=バース テキストファイル K E : S U 音響モデルで作られた音声データ
スペクトル距離計算 認識上限 スコア点数 0 500 1000 1500 正解 入力パターンに対する標準パターンの第一候補 入力パターンに対する標準パターンの第二候補
記録フォーム(単語数2) 認識結果 各項目に分割
単語音声認識の仕組み 入力音声 信号 音響特徴量 抽出 スペクトル 距離計算 単語照合 認識結果 (単語) 音響モデル 発音辞書
音声ファイルからの時刻取得 音声 003_11_05.wav 11時05分に録音したことを表している