都会挑选相对而言比较简单比较容易的戏份进行拍摄文字转WAV音频