尽管在千倍时空已经训练过了文字转WAV音频