但是我们要看到差距是客观存在的文字转WAV音频