至少羊尾在某种程度上还算比较好控制文字转WAV音频