经过了制作模型和实际操纵的过程后文字转WAV音频