但大部分镜头是在这儿完成的文字转WAV音频