1.4 大数据,首先是数据
从广义上来说,大数据包含自然数据和非自然数据。自然数据成为我们最初和现在的大数据科学的研究对象;非自然数据伴随着信息化的发展而发展,非自然数据中占比最大的是个人数据。
世界经济论坛上,有学者给出了个人数据的定义和产生机制,报告封面如图1-6所示。个人数据定义为那些人们行为所产生的数据,包含3类个人数据:①自生性数据——用户自发产生的各种数据,如社交网络信息;②观测性数据——记录用户可被观测的行为,例如移动电话记录的个人位置数据;③推断性数据——根据前两类数据经过分析得出的推断,例如信用评分。
图1-6 个人数据的产品报告
自生性数据包括用户的通讯录、邮件和照片等信息,通常托管在服务提供商服务器中,网络和电信运营商在提供通信及互联网和云服务时会存储大量该类数据。观测性数据包括支付记录、浏览记录、位置记录、交通违规记录和既往病史等同样被不同机构所记录。同时网络和通信运营商在向用户提供网络系统和业务系统时,也持续实时记录了用户上网行为、终端行为和网络行为。推断性数据包括客户潜在价值分析,商业智能的发展产生了运用数据进行客户分析的传统,由此积累了大量分析资产(软件、模型和人员等)。
对于政府或企业而言,其可使用的大数据包括自有数据(自生性数据和观测性数据)、衍生数据(推断性数据)和外部数据,而未来数据可能会像自来水和电力一样,会成为人们不可或缺的基础设施。
在所有这些数据中,传统结构化数据占比越来越低,非结构化数据占比逐渐增大。传统电信和金融行业往往处理的都是结构化数据,或者是能够转成结构化的非结构化数据。但互联网的飞速发展,数据处理的架构等多个方面发生了巨大的变化。在电信领域,传统技术仅能处理其20%左右的全量数据,更多的数据只能丢弃,因为在数据库里存储非结构化数据的成本实在高昂。而在互联网领域,非结构化数据和结构化数据是并存的,同时无处不连接的状态下,非结构化数据大量出现,对传统的数据处理模式带来挑战。
站在更广阔的角度来看,数据已经成为一种资产,其价值将超越现在的石油产业。所谓资产,就是会给企业带来经济利益的资源。数据也可以通过买卖、加工等形式进行处理,然后为企业换回经济利益。因此,“数据资产”的概念油然而生。如果数据没有资产的价值,不能带来收益,就不会有大数据的概念,没有人会存储垃圾的。
掌握更多的大数据资产,就可以带来更多的利润。