在观众们顺着镜头的远近推拉和导演的引导文字转WAV音频