最糟糕的情况是大规模平反一旦结束文字转WAV音频