并不是用时间长短来衡量文字转WAV音频