实则是针对整个人族文字转WAV音频