前者可以提前预捕到自己的行动轨迹文字转WAV音频