他们拿到的只会更少文字转WAV音频