就尽可能多的收集文字转WAV音频