由于这里的人穿的衣服样式和外界的差不多文字转WAV音频