不确定性还在于文字转WAV音频