系统会根据参与者的表现进行计算文字转WAV音频