他们不是直接的认定文字转WAV音频