后者则会显得更加准确文字转WAV音频