他们的确是为了核心数据文字转WAV音频