镜头中出现的人文字转WAV音频