但他可以根据周围的空气变化和那些人的口型看出他们在说什么文字转WAV音频