虽然在集结的过程中文字转WAV音频