简单地说……因为已知的信息变多文字转WAV音频