就是系统会在规定时间规定地点划出一个副本区域来文字转WAV音频