他们的目标很明确就是据守不出文字转WAV音频