跟随着他的视野聚焦的位置来回移动文字转WAV音频