随着镜头的转化文字转WAV音频