NTTアイティ NewsRelease
平成17年11月15日
NTTアイティ株式会社

自由な発話を高精度に認識する音声認識ソフトウェア「SpeechRec」を販売開始
〜 コンタクトセンタ、テレマティクス、対話型ロボットなどへの音声認識に利用 〜

NTTアイティ株式会社(以下:NTTアイティ、本社:横浜市中区、代表取締役社長:橋田幸雄)は、自由な発話を高精度に認識する音声認識ソフトウェア「SpeechRec」(スピーチレック)を平成17年11月21日より発売いたします。
「SpeechRec」は電話回線、IP電話、インターネット、直接対話など多様な利用環境下で、子供から高齢者までさまざまな不特定の話者が、自由なタイミングで自由な言い方で話しても発話を高精度に認識できる音声認識ソフトウェアです。コンタクトセンタでのオペレータ業務支援システムでの利用をはじめ、テレマティクス(カーナビゲーション音声情報システムなど)や対話型ロボットなどさまざまな分野でご利用いただけます。

■開発の経緯
近年、音声認識を利用したサービスが各方面で実用化されてきています。NTTアイティでは、従来より単語音声認識ソフトウェア「ShakerRec」(シェイカーレック)を開発・販売しており、ボイスポータルシステムやリアルタイム情報提供システム、チケット予約システムなど1500回線以上の豊富な導入実績があります。今回、より柔軟な音声対話を実現するために、NTTサイバースペース研究所が開発した自由発話対応の音声認識エンジンをベースに、「ShakerRec」を高精度の自由発話対応*1 とした「SpeechRec」を開発し、コンタクトセンタ、テレマティクス、対話型ロボット等幅広い分野への利用拡大を図ることといたしました。
なお、販売開始に先駆け、2005年11月17日(木)〜18日(金)に池袋サンシャインシティ・文化会館で開催される「第6回コールセンター/CRMデモ&コンファレンス」に、本製品を用いたオペレータ業務支援FAQ検索デモソフト「VoiceConcierge」を出展いたします。

■「SpeechRec」の特長
「SpeechRec」は、電話回線のみでなく、インターネット、PCアプリケーションなどマルチモーダル*2な環境下で、誰が/いつ/なにを/どんな言い方で話しても、高精度に音声を認識し発話を理解できる実用サービスの実現が可能です。
コンタクトセンタ、テレマティクス、対話型ロボットなどさまざまな分野での利用が可能であり、以下の特長があります。

(1)多様な発話表現に対応可能
認識させたい、あるいは発声される可能性のある表現を実例(発話例文)として大量に収集し、そこに含まれる単語の並び方(文法規則)を確率的にモデル化する手法*3により、人手による文法規則の決定や記述が不要となり、多様な表現に柔軟に対応することができます。基本言語モデルは約10万の発話例文より作成されていますが、確率的モデル化手法の採用により、適用業務や発話内容に応じた言語モデルのチューニングが可能であり、認識性能向上を図ることができます。
例) 「秋のセールの特売商品を知りたいのですが」のように利用者が話す実例を数多く集め、 「秋」「の」「セール」や、「セール」「の」「特売商品」、といった単語の並びを多数モデル化しておき、頻繁に使われる言葉をより認識しやすくします。
(2)適切なキーワードのみを抽出する発話理解機能
認識結果のディクテーション*4テキスト(単語列)の中から適切なキーワードのみを抽出する発話理解機能を備えており、自由に発話された音声から適用サービスでの用件を遂行するために必要なキーワードのみを抽出することができます。
例) 「えーと、渋谷で居酒屋を探して欲しいのですが」のような認識結果の単語列から、キーワードとして「渋谷」、「居酒屋」を抽出します。
(3)自由度の高い対話制御方式を採用
認識結果項目ごとの肯定/否定(はい/いいえ)確認をともなう対話管理ではなく、認識結果そのものの否定・訂正状況(状態変化)を用いた対話制御方式を採用することにより、ガイダンスにとらわれない自然な対話(発声)を可能としています。利用者は、言い直しや言い淀みなども含め日常生活で話すのと同じ自由な話し方で発声できます。
例) 「渋谷でなくて、品川でお願いします」のような自然な発話が可能です。
(4)音響モデルの充実により高齢者や子供の音声、VoIP網にも対応
音響モデル(音声の特徴をモデル化したデータベース)としては、成人とは特徴が異なる高齢者や子供への対応、VoIP網経由の音声への対応などにより、幅広い話者や多様な環境での利用を可能としています。また、適用先や必要性に応じて適切な音響モデルを選択することができます。

■動作環境
OS : Windows 2000/Windows XP/Windows Server 2003
CPU : Pentium4相当 2GHz以上推奨
メモリ : 512 MB以上推奨
■提供価格
項 目 価 格
CTI用途 サーバライセンス 1,500,000円〜
(4席のコールセンタの場合)
ボイスポータルプラットフォーム(ADVICE C3)
組込みライセンス
161,000円/回線
PC・端末組込み用途 ライブラリライセンス 300,000円/本
【販売について】
本製品の販売は、導入いただく環境に合わせた言語モデル作成、チューニング作業を行い、アプリケーション・ソフトウェアとセットでの販売とさせていただきます。言語モデル作成、チューニング作業およびその他のカスタマイズには別途費用が必要です。
■販売開始時期と販売目標
販売開始 : 平成17年11月21日(月)
販売目標 : コンタクトセンタ、テレマティクス市場等への展開を図り、現在複数の企業とサービス導入を推進中です。今後3年間で500セットの販売を目指します。
■利用例
・自由な発話音声の認識によるコンタクトセンタ業務等の効率化
・24時間対話型情報案内サービスによるお客様サービスの向上
・テレマティクスシステムによる快適なカーライフの実現
・対話型ロボットによるナビゲーションサービスの実現

■お問い合わせ先
NTTアイティ株式会社
ポータルシステム事業部
担当:松村、山口、石田
TEL:045-651-7512 FAX:045-651-7737
E-mail:info-vcj@ntt-it.co.jp
URL:http://www.ntt-it.co.jp/

[語句等の説明]
(*1)  自由発話
人が日常会話で話すのと同じように自然に連続して発声すること。一語一語区切って発声する必要がない。

(*2)  マルチモーダル
Webアプリケーションに音声インタフェースを加えたもの。

(*3)  確率的言語モデル
文法を人が規則として定めるのではなく、大量の発話例文から単語の並び方を確率的にモデル化する技術のこと。

(*4)  ディクテーション
人の発話内容を一字一句テキストに書き下す技術のこと。


[home]

COPYRIGHT (C) NTTアイティ株式会社