后一种解释则重文字转WAV音频