但实际上底层管理是从他们中间选出来的文字转WAV音频