其实是高速的数十次交错的叠加声文字转WAV音频