最多就是切开了两个人的前襟文字转WAV音频