因为很多时候考核的场景都是虚拟演化并不是真实存在的文字转WAV音频