我们如今基本可以推理出这样一条时间线……在S1之前文字转WAV音频