他是跟自己描述过的文字转WAV音频