前者的优点是结构简单文字转WAV音频