以及玉沁的颜色等等来综合判断文字转WAV音频