选角是需要三方共同决定的文字转WAV音频