我们保持一种半结束的状态文字转WAV音频