但如果他们两个不出面解释的话文字转WAV音频