根据他们的相貌和信息文字转WAV音频