因为很多成本是不容易计算的文字转WAV音频