最后一个数字是一个总的分数文字转WAV音频