显然还是前者的可控性更大一些文字转WAV音频