一样都是在陌生的环境里找一个很可能正在移动的目标文字转WAV音频