他指的是那些普通人文字转WAV音频