狭义上的人类是很难精确区分和定义的文字转WAV音频