所以它才会在某些情况下自动和我分离文字转WAV音频