但是大体上估计文字转WAV音频