它们是凭着对气息的波动来判断和锁定目标文字转WAV音频