而且根本就不顾及我们在场文字转WAV音频