而是纯粹的经过了长时间的重复同一件事之后的下意识动作文字转WAV音频