为什么还要加个条件文字转WAV音频