仅仅只是摄像机拍到的取景范围显然不可能构建一个完整的小世界文字转WAV音频