他们确实也还不知道目标在哪个位置文字转WAV音频