前LinkedIn数据科学家、GrowingIO总裁张溪梦系列访谈(二):不一样的大数据采集平台

  • 曹开彬

  • 2016-01-12

  • 来源:

9.jpg

大数据听得耳朵起茧了,但真正能深入了解吗?不一定。我和很多人业界人士有过深入交流,发现对此讲得最透彻的是前LinkedIn数据科学家、现GrowingIO创始人兼CEO张溪梦。不久前,我们中国软件网团队和他进行了一次对大数据相关问题的深入交流。我们特整理出三篇文章,和朋友们一起分享。三篇文章分别是:不一样的大数据框架、不一样的大数据采集平台、神一样的数据产品。本文是第二篇。

在详细介绍了不一样的大数据框架图之后,张溪梦和我们详细探讨了大数据采集平台。我们讨论所形成的一个重要观点是:在数字经济时代,未来每个企业都是数字企业。数字企业都必须有自己的大数据处理体系。而今天我们介绍的,便是张溪梦眼中每个企业大数据处理体系中最基础和最根本的部分——大数据采集平台。

这才是企业大数据体系的核心

根据张溪梦介绍的不一样的大数据框架,我们总体上可以将企业大数据的体系分成“3+1”,即采集与存储平台、分析与挖掘平台、洞察与决策平台,以及覆盖全局的数据安全平台。

采集与存储平台的主要职责是对企业的相关大数据进行收集,并将采集到的数据存储起来。这是企业的数据资产。它也是未来数字企业的最重要资产之一。

分析与挖掘平台的主要职责是对企业采集到的大数据进行专门的分析、BI等,以及在此基础上进一步的数据挖掘、人工智能等。

洞察与决策平台的主要职责是利用大数据分析的结果产生对商业的洞察、决策,以及与之对应的行动等。

数据安全平台的主要职责是负责确保数据的安全性,保证企业的数据资产不受到损害,例如数据不丢失、不损坏、不被窃、不被改等。

一般而言,企业可以不用自己拥有专门的大数据分析与挖掘平台,可以租用第三方的专业工具;但企业必须自己要有相应的商业洞察、决策与行动能力;同时,企业也必须拥有自己的数据,必须有数据的所有权。也即是说,企业必须有数据采集与存储平台,这样才能拥有自己的大数据资产。这是未来数字企业的核心!如果数据不在自己手中,或者自己没有数据,则一切的所谓大数据都将变成空中楼阁。在虚拟的数字世界,同样存在“巧妇难为无米之炊”啊!

 

大数据的三个层次
资料来源:海比研究,2016

大数据的采集平台也有三个层次

在未来的数字企业中,大数据采集与存储平台将占据非常重要的位置。将来自各种数据源的原始大数据采集回来、存储起来,这便相当于企业的大数据原油。如果一个国家没有原油,就只有全部采用进口了。这就相当于把命脉交给了别人、被别人把控。

一般而言,大数据采集与存储平台一般也可以分为三个层次,即数据采集层、预处理层和存储层。同时,大数据采集平台还需要一个覆盖全局的数据安全体系。采集层负责采集企业各种来源的大数据;预处理层负责对采集回来的数据进行一些规范化的处理;存储层则是将预处理后的大数据进行存储,将企业大数据资产用一种方式保存起来。数据安全体系和上文所提到的数据安全平台一样。

值得注意的是,当存储技术足够好、存储设备成本足够低容量足够大时,或许就可以不用预处理层了。

大数据采集与存储平台框架


资料来源:海比研究,2016

大数据采集技术难题不少

张溪梦认为,大数据时代的数据采集和以前会很不一样。大数据采集是一个很复杂的工程。其复杂性主要有三点,第一,数据源非常复杂;第二,实时化比较难;第三,存储和管理、保证安全比较难。有大数据专家认为,这些复杂性使大数据采集有四类典型技术难题。

第一,各种智能设备中的运行数据是企业大数据的一个重要来源。在这种大数据采集中,很重要的一部分是大数据的智能感知,它能实现大数据源的智能识别、感知、信号转换、适配、传输、载入等技术。尤其是智能设备的数据中,还会涉及结构化、半结构化、非结构化等各种数据,这与以前的纯粹结构化数据采集会有巨大不同,也因此而存在许多需要克服的技术难题。在智能制造、可穿戴设备等产业数字化、物联网越来越发普及的今天,智能设备的数据采集变得非常重要。

第二,社交网络、电商或官方网站、APP应用是企业大数据的另一个重要来源。在这种大数据采集中,高速高可靠数据爬取或采集技术、高速大数据预处理技术、视频语音等流数据的实时采集技术是当前需要重点突破的技术方向。同时,采用哪种方法采集,例如埋点或无埋点方法,也是当前非常重要的突破方向。

第三,存储也将越来越成为大数据的关键问题。随着一切产品与物质的智能化、数字化,数据量正以前所未有的速度迅猛扩大。如果没有一套成熟的数据存储和管理方案,我们也终究无法利用这些巨量的数据。大数据专家们一致认为,大数据的索引技术,以及大数据的移动、备份、复制等技术是当前技术难点。

第四,隐私与安全是大数据采集中面临的另一道难关。对于隐私,目前采集的界限就很难界定。一些数据一旦采集了便涉及到隐私,不采集又会损失很多重要信息;数据如何利用算是侵犯隐私,怎样才算是合法利用……这些问题,看上去是属于道德或法律范畴,但其实也是和技术实现手段息息相关。另外,如何保证数据不受损、不被修改、不被偷窥、不被偷窃,则是当前大数据采集所要重点解决的安全问题。这会涉及隐私保护和推理控制、数据真伪识别和取证、数据持有完整性验证等技术。

哦,还有数据采集制度规范很重要

值得注意的,大数据的采集还有一件事情非常重要,即整个企业要有一套完整、规范的数据管理体系。这个数据管理体系包括数据采集流程,以及数据管理制度。

张溪梦说,国内大数据的技术服务公司正在飞速成长,其产品技术和美国的差距也正在迅速缩小。但对于数据管理体系,国内很多企业在这方面的理念、水平及完整性都和美国企业有不少差距。这是一个软实力,企业只有在这方面也强大了,才能真正将大数据的价值准确、持续地发挥出来。


文章转载自微信公众号「中国软件网曹开彬 陈庆

  • 案例
  • 观点
  • IT/互联网
  • CEO
  • CTO
  • CIO
  • IT
  • 大数据

推荐

我要评论