Skip to content
Aki Miyazaki edited this page May 1, 2024 · 10 revisions

Score

シリーズとバージョンが違うと、スコアが変わるので注意してください。なお、fasterwhisperおよびjyakoTenシステムとの相性なので、高スコアが高品質というわけではありません。 目安、および同じ音声セットで設定を変えての比較に役立ててください。

ITA音声の品質の比較には適していません。

その音声を使って、TTSを作成時にオリジナルと、どこまで近づいたか比較したり、RVCでボイスチェンジ時に、どのぐらい影響が出たのかの目安に。

ITA 324 Recitation

私の知る限りの最高品質の音声 クリエイティブ・コモンズ表示-非営利4.0国際パブリック・ライセンス

Normal スピード

スコア jyakoTen-Ver software model type beam vad コメント
321.413 0.107 faster-whisper large-v3 float32 10 yes
321.421 0.107 faster-whisper large-v3 int8 10 yes 基本floatの方がいいはずだけど、誤差の範囲

RVCを使って変換後の音声の評価

内部コードITA04 SpeedSpeech-JA-2022 を元に RVC変換後の音声認識結果の変化の結果 (ボイスチェンジの効果は点数にまったく反映されない)

とある音声 CV03(raw 22050hz)

定説通り、epoch 20前後にピーク 40khz化の効果は見当たらない

スコア jyakoTen-Ver software model type beam vad コメント
318.634 0.107 faster-whisper large-v3 float32 10 yes Epoch 05 40khz batch08 rmvpe index無
318.439 0.107 faster-whisper large-v3 float32 10 yes Epoch 10 40khz batch08 rmvpe index無
318.494 0.107 faster-whisper large-v3 float32 10 yes Epoch 15 40khz batch08 rmvpe index無
319.426 0.107 faster-whisper large-v3 float32 10 yes Epoch 20 40khz batch08 rmvpe index無
319.095 0.107 faster-whisper large-v3 float32 10 yes Epoch 25 40khz batch08 rmvpe index無
319.060 0.107 faster-whisper large-v3 float32 10 yes Epoch 30 40khz batch08 rmvpe index無

Index有りだと、大幅に落ちる

スコア jyakoTen-Ver software model type beam vad コメント
313.214 0.107 faster-whisper large-v3 float32 10 yes Epoch 20 40khz batch08 rmvpe index有
313.734 0.107 faster-whisper large-v3 float32 10 yes Epoch 25 40khz batch08 rmvpe index有
313.666 0.107 faster-whisper large-v3 float32 10 yes Epoch 30 40khz batch08 rmvpe index有

Clone this wiki locally