当然这些只是虚拟屏幕上展现的人眼能够识别的粗浅表像文字转WAV音频