而且用人类的话来描述文字转WAV音频