其实可以形容为人的体质文字转WAV音频