第三节 大数据的数据,究竟从哪里来
以大数据为核心的智能化革命,之所以会在今天大爆发,是因为在全球范围内,数据都在呈爆炸式的增长。
由于大数据具有数据量大、维度多和数据完备等特点,所以它的收集、存储、处理和应用,都与传统的统计方式有很大不同。
在传统意义上,我们收集数据的方式是先有一个目的,然后冲着这个目的去采集数据。
比如,人们发现天王星的运动轨迹和牛顿力学预测的不一样,于是推测在天王星之外,应该还有一个质量更大的行星在干扰天王星的轨迹。根据这一猜想,天文学家拍摄了大量的星空照片,从中发现了海王星。
而大数据时代,并非按图索骥。数据收集往往没有预先设定的目标,而是先把数据收集起来,再进行相关分析,进而得出结论。正是因为在收集数据时没有前提和假设,大数据分析才能给我们带来更多意想不到的惊喜。
比如,我们想要了解收视率,就通过电视机顶盒或智能电视,获取全量用户的使用习惯数据。这种全量数据还能分析出广告插播效果与观众喜好特点等更具经济价值的指标。
实际上,无论是企业还是个人,无论我们承认与否,在大数据时代,我们周围到处都充斥着碎片化的数据。因此,我们很容易迷失在海量的数据之中。
如何收集有价值的数据
这就需要我们跳出思维定式的框架,从相关联的行业和业务中,去收集能够为现有业务所用或者提供佐证的数据。
亚马逊的数据收集有一个很经典的例子。在很多年前,亚马逊就主动去收集用户的IP地址,然后从IP地址破译出用户所处位置附近是否有书店。工作人员从收集到的数据中了解到,一个人是否选择在网上买书,很重要的原因是附近有没有书店。这就是主动收集数据,即通过收集相关联的外部数据,判断线下是否存在潜在的竞争对手。
其实,我们在做数据收集的时候,并不总是能够直接收集到所需要的关键数据,这时候就需要变通一下了。
谷歌是一个很重视数据的公司,它想了解每一个家庭的日常生活状态。于是,它推出了自己研发的电视机顶盒谷歌TV,试图进入电视广告市场,但是销量不尽如人意。
谷歌又是如何转换思路的呢?它转而收购了一家做智能家居的初创公司,通过收集大量智能电器的开关机时间、用电量以及使用频率等数据,可以分析出用户几点回家、几点看电视、几点吃饭和几点睡觉等日常行为,这对于谷歌来说非常有价值。
不仅如此,谷歌还收购了一家家庭录像监控公司,从而获得了维度更加丰富的家庭影像数据。通过这两次收购,谷歌弯道超车,构建了相当全面、立体且精准的家庭数据库,为公司未来战略提供了决策支撑。
很多机遇就是在这种思路中产生的。比如在外贸行业,我们如何得知什么样的海外新品能够大受欢迎?我们如何才能收集到国际用户的数据?有些厂家会参照海关数据,但是海关的数据往往是滞后的,无法让企业及时获取行业的发展趋势。
最好的办法是在国际搜索引擎上,关注营销专家或外贸经理搜索浏览的数据,看他们换了什么关键词,就可以了解外贸的商品发展趋势。
以鞋类为例,我们可以先观察在美国做得最好的几家鞋类网站,它们买入了什么关键词、变换了什么关键词、有什么关键词是常态的,以及有什么关键词是在季节更迭的时候才买入的。
在观察到这些变化之后,我们再到谷歌上去观察关键词的增长趋势,去eBay看看这一款鞋子有没有交易及价格的变化。在知道eBay有交易之后,我们再放到国内电商平台中搜索这个产品。如果没有出现相应的搜索结果,就意味着这可能是一个良机。
收集用户数据最好的方式,就是去观察行业内对这个数据最敏感的那些人。生活中也有这样的例子。
比如你想知道香港的某家酒楼生意好不好,你问问门口卖报纸的人就知道了——香港人喜欢在喝茶的时候买一份报纸。其实,这个规律是香港税务局发现的。香港税务局如果担心酒楼虚报营业额,可以通过卖报纸的商家卖了多少份报纸来判断,这是一个非常有趣却很实际的数据收集案例。
对于数据的灵活运用,完全取决于我们是否了解自己拥有多少数据,是否能够筛选出到底什么是核心数据,什么数据会被我们频繁地使用。
就拿电子商务的数据收集为例,比如母婴类目,很多电商通过客户购买的特定品类来推算出宝宝最新的一个年龄阶段;在汽车类目上,电商会通过客户购买的机油、滤清器等型号来推算出客户的车型;又比如从一个用户购买衣服的历史尺码来观察用户是否有身材上的变化。
所以,就数据收集而言,最重要的不是看我们收集了什么数据,而是要思考收集这些数据到底有什么用。用一句话来说,就是收集数据不是目的,收集起来的数据如何产生价值才是最终的目标。
数据储存难题
除了数据收集,数据储存同样重要。我们并非仅是把收集过来的数据放到硬盘里面那么简单,更重要的是对数据进行分类、存放及管理。不然就如同一个杂乱的储藏室——放东西进去的时候很轻松,但是要知道哪些东西有用,或者拿出东西的时候就不那么简单了,甚至可能再也找不到。
面对海量数据,如何有效地储存,最大限度地发挥数据价值,成了我们面临的问题。比如,如何让数据不丢失,如何保护数据的安全,如何让数据准确和稳定以及如何更好地运用数据。
要知道,通过技术手段实现数据云端储存,这只是基础。大数据储存真正面临的难题是,如何用标准化的数据格式来储存数据实现共享?
在过去,每个公司都有自己的数据格式与标准,它们只在自己的领域里使用自己的数据。但是,到了大数据时代,我们希望通过数据之间的相关性去寻找事物之间的关联。这就需要各个机构之间打通数据格式与标准。
举个例子,我们通过可穿戴设备,将每一个用户的生活饮食习惯收集起来,然后再和他们的医疗数据甚至是基因数据相结合,就能够预测出不同个体在不同环境下的潜在疾病风险,进而及时地建议他们改进生活饮食习惯,提前预防。
这是一个非常好的愿景。但是其中面临的难题是,每个人的生活数据、医疗数据和基因数据,格式与标准都不同。不是在统一格式与标准下存储的数据,就没有办法通过统一方式去分析。所以,如何打通原有数据的格式与标准,是大数据储存未来最大的挑战。
数据标注的隐秘产业
正因为大数据的收集是海量且漫无目的的,所以也增加了我们处理大数据的难度。由于这些数据没有固定格式,杂乱无章,因此我们要对这些数据进行过滤和清洗,去除无效数据,将关联数据进行格式化的分类整理,以便进一步使用。
在这个过程中,我们不得不提到一个很重要的环节——数据标注。
我们都知道,大数据与人工智能的发展是相辅相成的。机器智能化就需要通过大量数据与算法持续地学习,这就是所谓的机器学习。那么,我们如何为机器提供高质量的“学习资料”?
这时,我们就需要数据标注。它是对海量、复杂且多源的语音、图像或视频等数据进行标明注解,从而转化为机器可以识别和学习的信息。
比如,自动驾驶汽车的识别系统,曾经一度很难分辨猫和狗。这是因为从外形上看,猫和狗非常接近,而自动驾驶识别系统,还无法从一些细微的差异来分辨两者的不同。这就需要大量人工在成千上万含有猫和狗的图像中,将两者的细微差异标注出来,再让机器按照人工标注的差异点与相应的视觉识别算法来学习。
这就是数据标注的核心,也是整个大数据智能化发展中不可或缺的一环。2019年,国内数据标注产业规模已经超过100亿元。
目前,有些公司会自建内部团队,负责开发标注工具和完成大量数据标注任务,如小米、旷视和英伟达。但大多数人工智能企业为了集中精力研发,会将数据标注业务外包。此外,学术机构、政府及银行等都有数据标注外包需求。
承接数据标注外包业务的,往往是“数据工厂”。它们是专门从事数据标注的企业或团队,数据工厂里的全职标注员常被比作“数据民工”。数据工厂的优点是标注人员稳定、可与甲方即时沟通,易把控数据质量,一对一传递也降低了数据泄露的可能性。
因为有巨大的市场需求,数据标注也催生出众包服务平台,比如国内的百度众测、京东众智与数据堂等,以及世界上第一个众包平台——亚马逊劳务众包平台(Amazon Mechanical Turk)。
Amazon Mechanical Turk,2005年出现于美国,最初是为了解决亚马逊公司的内需,后来对外开放成为数据标注众包平台,平台可抽成每单任务奖金的10%,截至2019年底,该平台注册用户达80万人。
2007年,著名人工智能专家李飞飞带领团队创建的世界最大图像识别数据库ImageNet,其超过1400万张被分类的图片便是依赖于Amazon Mechanical Turk上5万名用户耗时两年完成的。
在中国,数据标注业务更是利用人口红利的优势,正在如火如荼地发展。有一个细节值得一提,当你用注册用户身份登录某些网站时,它会让你在一张图片上,按顺序找出几个汉字,或者点选图片上物体的名称。其实,你已经不知不觉地在为某个机构免费标注数据了。