走近大数据
上QQ阅读APP看书,第一时间看更新

1.3 大数据带来的改变渐渐发生了

大数据逐渐深入的发展,改变了我们和我们所处的社会,改变了我们的生活和工作各个可触及的范围。

关于大数据,最经典和最易被提及的应用案例是美国塔吉特卖场对于17岁女孩怀孕的预测。该事件源自《纽约时报》的一篇报道,报道是关于一位怒气冲冲的父亲对塔吉特卖场将带有婴儿用品优惠券的广告邮件,寄送给他正在念高中女儿的质问。而事实是,这位父亲的女儿确实怀孕了。塔吉特卖场从这名女孩搜寻商品的关键词和在社交网站所显露的行为轨迹,成功预测其怀孕的信息。有数据显示,许多孕妇在第2个妊娠期开始,会购买许多大包装的无香味护手霜;在怀孕的最初20周大量购买补充钙、镁和锌的善存片之类的保健品。由此,塔吉特构建了“怀孕预测指数”,可在小误差范围内实现对顾客怀孕情况的预测。

FareCast是早期大数据创业公司的一个缩影,该公司通过“哈姆雷特”项目,从旅游网站上搜集41天的12000个价格样本的分析基础上,开发了一个虚拟价格预测系统。获得风险投资后成立FareCast公司,分析了10万亿条北美70多个城市的机票价格记录,预测这些城市之间的机票最低价格,实现了75%的准确率维克托·迈尔-舍恩伯格,《大数据时代》。

而伴随大数据成长的谷歌公司,初创于搜索引擎技术。该公司通过收集和分析人们输入的搜索关键词,实现特定区域的搜索关键字聚合,建立评估模型;再来建立搜索流感话题人数和真正流感患者人数之间的关系,将该模型应用到聚合后的搜索关键字后,可以一定程度地实现对流感在不同国家和地区中扩散情况的预测。

Gartner的分析师Doug Laney列举了55个大数据应用案例,其中有这样两个案例引人关注。2013年1月,PredPol公司与洛杉矶警方合作进行可精确到500平方英尺(约46平方米)范围内的大数据犯罪预测。该系统根据某地区历史犯罪数据,预测该地区发生犯罪的概率、类型及最有可能时段,将这些预测信息展示于城市地图中,进行“热点”地区预警,执勤警员可通过PC、手机或平板电脑在线查看。自该系统启用一年内,该地区盗窃罪和暴力犯罪分别下降了33%和21%。而类似情节却恰好是2002年上映的好莱坞电影《少数派》中提及的“先知”能力。

Laney给出的另一个案例是,零售业巨擘沃尔玛公司为其在线销售网站设计了一个名为Polaris的搜索引擎,通过利用语义数据进行文本分析、机器学习和同义词挖掘,使在线购物的完成率提升了10%~15%,这也就意味着数十亿美元的营业额提升。

亚马逊通过对用户之前订单、商品搜索记录、愿望清单、购物车和用户在某种商品上悬停时间的分析,开发了“预测式发货”功能,以预测用户的购物习惯,从而在他们实际下单前将包裹发出。该功能可以缩短发货时间,以降低从下单到收货之间的时间延迟,进而减少因此而导致的购买意愿降低从而放弃购物的人数。

摩托车生产厂商哈雷·戴维森公司(位于宾夕法尼亚州约克市)翻新摩托车制造厂,通过记录各种制造数据,监控摩托车生产过程,并从其中寻找生产效率提升的工作瓶颈。UPS从安装在公司4.6万多辆卡车上的远程通信传感器上获取车速、方向、刹车和动力性能等方面的数据,用来确保车辆日程性能维护及时性和辅助公司物流路线的设计优化。该数据的应用,为UPS减少了8500万英里(约1.37亿千米)的物流里程,由此节约了840万加仑(1加仑≈4.545升)的汽油。

Xoom是一家从事跨境汇款业务的公司。2011年,该公司通过数据检测发现从新泽西州汇款的交易量比正常情况下多一些,于是系统自动发出警报。

大数据使我们在互联网上的一举一动都被记录,自然语言处理和图像处理识别技术的发展,使我们提交到社交网站上的照片、评论等各种看似散乱而毫无意义的单个信息,拼凑出我们的个人拼图,我们的行为习惯、心理状态和对人对事的评价都可轻易地被推断出来。社会化股票交易员排名(The Social Stock Trader Rankings)采样Twitter数据流,并对比分析当前股市表现与交易员过去的涨跌判断,从而对交易员进行准确率排名。新浪网2013年7月19日一篇报道称,2013年7月,哈尔滨工业大学的研究人员通过构建抑郁倾向识别模型,从新浪微博近亿名用户中识别出几百名重度抑郁症患者,研究结果经医学机构确认准确度可达83%。

工作中的手机会实时检测最近的基站位置,从而使接听电话时的路由更有效。而这样的工作机制,使电信运营商能够获取到手机用户的时空位置信息。从收费角度来看,电信运营商也需要记录用户在何处拨打电话,以及电话持续的时长。同时,各种导航应用、服务推荐或评价软件和导航应用的结合,产生了更加丰富的用户时间和空间相结合的时空位置信息。而这些时空位置信息也都成了基于位置服务的大数据基础(如图1-5所示),甚至部分公司结合位置信息实现考勤打卡。也有研究表明,人的移动轨迹有较高的独特性,从各人匿名提供的手机位置数据中,只需抽取4个时空点即能识别出该用户,识别率高达95%。

图1-5 大数据洞悉区域客流