我们已经用场边的摄像头进行捕捉文字转WAV音频