我们想要的信息应该全都以音频和视频的方式保存在里面了文字转WAV音频