用鬣狗观测到的细节就是文字转WAV音频