当然两种情况是不同的文字转WAV音频