他们会拿第二个来比较文字转WAV音频