但他们的声纹信息和坐标文字转WAV音频