就是确定主角和配角的位置文字转WAV音频