有的机会则是必须抓文字转WAV音频