而且在最后确定阶段文字转WAV音频