我们还是应该按照人头来分文字转WAV音频