而是他们真实的听到文字转WAV音频