里面已经是聚集了一道道的人影文字转WAV音频