我们之所以捕捉他文字转WAV音频