可能是平时的两倍甚至三倍文字转WAV音频