因为如果花太多的时间布置场景文字转WAV音频