音声合成処理の流れと高品質化のポイント
新たに、自然な読み上げ口調音声の学習結果に基づく統計的な韻律生成技術や合成音声の韻律の安定化と高品質化を実現する音声選択的韻律適応技術を導入し、肉声に近い自然な読み上げ音声を実現しています。また、音声合成用データベースをさらに拡充し、音質の滑らかさが向上しました。音と音のつながりが滑らかになり、従来に比べさらに聞き心地のよい音声を作成することが可能となっています。
(1)統計的韻律生成処理の導入
大量の読み上げ口調音声からの学習結果に基づいた、統計的な韻律生成技術により、従来の規則やテンプレートに基づいた韻律生成技術と比べて、より自然な読み上げ口調韻律パターンの生成を実現しています。
(2)選択的素片韻律変形処理の導入
コーパスベース音声合成技術では、音声データベース中の音声素片を適切に選択・連結して素片系列とすることにより、音声を合成します。このとき、目標とする韻律パターンに合致する音声素片がデータベース中にない場合、目標パターン近いものが選択されるため、韻律がずれて不安定に聞こえてしまうことがあります。一方でこれを解決するために、音声素片を一律に目標韻律パターンに合わせて韻律変形すると、変形に伴い音質が劣化して肉声らしさが失われてしまうという問題があります。
これらの問題を解決するため、今回導入した選択的素片韻律変形処理では、目標韻律パターンから外れた不適切な音声素片に対してのみ韻律変形を行うことで、合成音声の韻律の安定化と高品質化を両立させました。
(3)音声データベースの拡充
音声情報提供サービスなどで重要な数字読み上げ部分を重点的に音声データベースを拡充しました。これにより、音と音の繋がりが滑らかになり、さらに聞き心地の良い音声の合成が可能となりました。
|