因为他很难从现场几乎所有人的神色表情中看出什么文字转WAV音频