总共有三个镜头很难做文字转WAV音频