所以他的推理也是颇为精准的文字转WAV音频