而且因为镜头角度的不同文字转WAV音频