前提是目标的一部分文字转WAV音频