对方显然是后者文字转WAV音频