他们只占了往文字转WAV音频