他们只能听到文字转WAV音频