当然前提是他们愿意离开文字转WAV音频