然后都向中间汇聚文字转WAV音频