他们可能也就存在于底层文字转WAV音频