他们要回去亲自体验一下这个推断的准确性文字转WAV音频