起码萨尔维是这么许诺的――这样观众至少能找到相对稳定的参照物文字转WAV音频