它们拿到外界文字转WAV音频