名单上的顺序都是距离他们最近的文字转WAV音频