完全就是两种不同的状态文字转WAV音频