如果要给这两个空间以总分为百分之一百来评价相似度的话文字转WAV音频