机器学习的产业实践之路
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.2.3 大数据对机器学习的意义

结合大数定律和机器学习框架,可推导出大数据对机器学习的价值所在,即大数据可以解决机器学习中的两难问题。

上述的推导证明,强大的模型假设不一定是好事,因为越强大的模型意味着越大的增长函数M(H,N),需要更多的数据才能满足学习的条件(大数定律生效)。机器学习的终极目标是减少Eout(在未知样本上的错误),而Eout可以理解成Ein和(Eout-Ein)两部分。更强大的模型可以使Ein更小,但如果供给机器学习的数据不足,它往往会使(Eout-Ein)很大,从而达不到很好的Eout。这个两难关系如表1-2所示。

表1-2 两难关系说明,假设空间M过大或过小均会导致问题

Ein很小意味着可得到一个更精确的统计结果,(Eout-Ein)很小意味着可得到一个更置信(即可信)的统计结果。实际上,这两个目标经常互相打架,即使不了解机器学习,在日常的数据分析和统计中也会经常遇到这一问题。

案例8 抽样调查全国3000名客户,调查内容包括性别、年龄、居住地三项基本信息以及他们对鞋子的喜好。

分析上述数据统计结果,调研人员得出两个结论:

结论1:中国女性60%喜欢高跟鞋。

结论2:北京海淀区5~10岁的女童,100%喜欢男性化旅游鞋。

这两个结论是否存在问题?如果存在问题,分别是什么问题?

结论1的问题在于“中国女性”这个分类太宽泛了,基于过粗分类的统计结论通常没有鲜明的特点。如果将中国女性作为一个整体,会发现她们对各种商品的喜好很平均,十分没有特点。这是因为将不同喜好的群体混合,混合后的类别会把很多倾向性信息中和掉。比如,一所体育学校设有球类学院,分为足球班和篮球班。因为事先根据学生的喜好分班,所以两个班级的喜好倾向是极其鲜明的。

如果将两个班级合并起来分析,球类学院对足球和篮球的喜好非常平均,鲜明的喜好信息被淹没在“球类学院”这个较粗的分类维度里。

综上,在结论1中,中国女性这个目标用户群过粗,这导致不同类型的女性对不同鞋子的偏好被淹没了,汇总后的喜好表现得很平均,统计结论很不精确。但只有面向喜好鲜明的细分市场,才可以有针对性地提供差异化的商品或服务,从而具备较高的商业价值。

结论2听起来很好,完全没有结论1的问题。统计分类很细,喜好非常鲜明,极具商业价值。基于该结论,在北京海淀区开一家专门向5~10岁女童销售男性旅游鞋的鞋店,相信一定会大卖。其实,这是一个错误的结论,它是基于1个样本统计得到的,存在统计不置信的问题。假设样本是我邻居家的小女孩,她生性活泼,尚没有清晰的性别认识,喜欢将自己打扮成男孩,喜欢男性化旅游鞋,但这并不代表该年龄段的所有女孩均如此。将3000个样本放在由三个维度(性别——2个分类;年龄——20个分类;居住地——50个分类)切分的数据立方体中,会发现大部分格子里只有0或1个样本数据。基于1个或少量样本的统计结论,往往是不置信的。换句话说,如果未满足大数定律的条件,即使是以高概率得到的结论也不可信!

既然用过粗的维度观测数据会造成结论不准确、无价值,而用非常细致的维度观测数据又会造成结论不置信,那么何种解决方案是最妥当的呢?答案是:在细致与置信之间做出合理权衡。一方面分类维度要足够细致,够细致才能准确地定位细分群体,不会淹没有效的信息;另一方面要保证分类中含有足够的样本量,样本量足够才能使大数定律发挥效应,得到置信的统计结论。在实操中,通常在保证数据置信的前提下,尽量细分数据,以得到更细致、更有价值的统计结论。该过程如案例8中图所示,如果格子里还有大量的样本数据,说明观测维度还可以切分得更加细致。反之,如果格子中的样本数据很少,那么需要减少切分维度,将不同格子中的样本数据汇集到一起,以提高结论的置信度。这个权衡贯穿了整个统计学习,在机器学习中也称为过拟合和欠拟合(或者偏差(bias)过大和方差(variance)过大),其同样是权衡“拆得过粗得到的统计结论无法精准地描述事物规律”与“拆得过细得到的统计结论无法置信地描述事物规律”。

为何特征(切分的维度)多了,得到置信的统计结论需要更多的数据

我某次出于好奇,向身边的女性朋友咨询过:“为何女性要买那么多包?”现实中让女性决定购包的维度有很多,比如:不同的场景(例如商务会谈、闺蜜聚会、外出游玩等)需要不同款式的包;不同的衣服需要搭配不同颜色的包,如包的颜色与衣服不能相近,风格要一致;装不同物品需要不同的包,如装化妆品的手包、装钱和卡的钱包、装平板电脑和手机的挎包、装小物件的提包;不同的季节需要不同的包,如夏季适合用帆布包,冬季适合用皮包。除此之外,还有诸多决策维度,难以逐一列举。但对于一位时尚女性来说,不仅不同维度(场景、衣服、用途、季节)组合下需要不同的包,每个维度组合下最好要有几款可作为备选的包,以便随时更换来彰显个人的品味与个性。类似地,如果一个统计模型中可用来切分数据的特征(维度)很多,为了使每个细分场景(某种特征组合)都有足够多的样本量,以便大数定律发生效用,进而得到统计置信的结论,那么总体上就需要更多的样本。特征越多,本质上,机器学习中的模型假设就越复杂。

在大数据时代,该均衡点变得更加优秀。由于数据量足够大,因此可以拥有更多的数据切分维度(大量特征),而不必担心置信问题。如上图所示,无论切分多少次,格子里总是存在足够多的样本量。在大量样本+大量特征的情况下,“统计分析”或“模型学习”得到的信息可以非常细致且非常置信,从而使这种模式有着远超人工经验的巨大价值。例如北京西二旗地区知识分子家庭的5~10岁的女童喜欢带电光的耐克跑鞋,那么对女童和鞋子的描述都可以非常细致。如果说传统统计学更注重研究如何从抽样个体的统计指标去推测全体,那么今天的统计学则更关注如何在置信的前提下把全体数据尽量拆细,得到更细致的个体结论。这就是大数据对机器学习的价值,它释放了模型的学习能力(使用更强大假设的能力)。

大样本使大特征成为可能,大特征使大样本发挥价值。

——大数据时代的个人总结