他们现在估计在调动摄像头文字转WAV音频