他们只能从上层处理文字转WAV音频