所以他可以准确的找到该敲击哪个点文字转WAV音频