他的所有理解都是基于人体解剖学文字转WAV音频