而是直接的去思考文字转WAV音频