全景镜头则使用模型拍摄文字转WAV音频