机器学习的产业实践之路
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.1.3 统计学习是否可信

从前面两小节,已经确定了人类使用“归纳+演绎”的方式去学习规律,而这种学习要通过统计的方式,而不是个案观察的方式进行。下面从三个案例,看看我们是否真的能够相信统计方式。

1.案例

案例3 抓球游戏(统计推断)。在不透明的罐子中有许多橙色球和绿色球,从罐子中随机抓出10个球进行观察,猜测罐子中两种颜色的球的占比。实验了1次,抽出的10个球中绿色占了7个,我们能判断罐子中绿色球的概率是70%吗?

案例4 智力测试(数据分析)。请观察下面左侧图形的规律,上面三幅是A类,下面三幅是B类,那么右侧这幅图应该属于哪一类?

案例5 函数猜测(数据建模)。已知YX函数的五个随机抽样点(如右图所示),分析YX的函数关系。

下面是从之前讲座现场收集到的一些常见反馈,这些反馈与大家的判断一致吗?

案例3的反馈:“这样猜大概没错吧?罐子中的不同颜色小球的数量虽然不一定是7:3这么准确,但也会差不多。”

案例4的反馈:“猜测是B类,因为B类中的三个图形都是对称的,而右侧的新图形也是对称的!”

案例5的反馈:“YX应该是线性关系,斜率大致是1。”

2.案例的答案

接下来向大家揭示真实答案:

案例3的答案:抓球游戏中可能存在这样的情况——罐子里大部分是橙色球,仅是顶层漂浮着7个绿色球,而它们又正好被我们抽出来了,如图1-2所示。因此,仅依据一次抽样的统计比例,完全无法得知罐子里的不同颜色球的真实比例。

图1-2 可能存在的情况

案例4的答案:新图形属于A类,因为与A类的三幅图具有一致的特征“中心格子为黑色”。推测是B类的朋友说错了,如果有朋友补充:“我的推测就是你说的答案。”不好意思,对于猜测是A类的朋友,我会告诉他们,真实的结果是属于B类,因为它们都满足“对称性”的规律。总而言之,无论大家的猜测是什么,答案都可能是另一种。因此,基于少量数据的分析,很可能“婆说婆有理,公说公有理”。

案例5的答案:通常大家都猜测YX是线性关系,但实际上它们是曲线关系。如图1-3中的2号曲线所示,只是抽样出的5个数据点巧合地表现出了线性关系而已,朋友们又推测错了!如果有朋友补充:“我猜测它们是曲线关系,如图1-3中的2号曲线所示。”不好意思,对于猜测是2号曲线的朋友,我会告诉你们,真实的关系是更复杂的曲线,如图1-3中的3号曲线。如果还有朋友不服气,说他猜测是3号曲线,那么我会告诉他YX其实是线性关系,如图1-3中的1号直线。可见,通过有限的数据拟合YX的关系(注:数据建模中的回归问题)是不可能的。无论拟合出什么结果,真实结果都可能是另一个样子。

图1-3 真实的情况究竟是直线1、曲线2还是曲线3呢

3.案例的暗示和大数定律

•案例3对应“统计推断”,从抽样数据的统计指标来推断整体数据的统计指标。

•案例4对应“数据分析”,从观察到的数据中分析出本质规律,对新情况做出判断。

•案例5对应“数据建模”,使用观测样本训练模型(拟合一条直线),对未知的样本做出预测。

这3个案例向我们暗示:“不能相信统计结论!”如果这个暗示是真的,那么本书后续还写什么呢?反正一切基于“有限观测”的判断和预测均可能是错误的。请大家不必如此悲观,真实情况没有这么糟糕。这3个案例之所以如此“恶劣”,是因为我们为了说明问题而刻意将答案复杂化,实际上在抽样统计值和真实值之间有一种函数关系,该函数关系使得统计学习在一定程度上是可行的。这就是大名鼎鼎的大数定律所尝试表达的:当试验次数足够多时,事件出现的频率无穷接近于该事件发生的概率。

从古至今,大数定律已经深入人心,大多数人在日常生活中经常使用大数定律做判断,甚至没有意识到它的存在。比如“曾参杀人”的典故。

补充阅读:曾参杀人的典故

孔子有个弟子叫曾参,为人极其贤德。某日,在他家乡有个同姓同名的人杀了人,老百姓都在谈论这件事。曾母当时正在织布,第一个人来对她说:“曾参杀人了,已经畏罪潜逃。”曾母非常淡定,完全不为所动:“我的儿子素来贤德,我非常了解,他不会杀人的!”继续埋头织布。过一会儿第二个人来说:“曾参杀人了,官府要来拿人了。”曾母虽然不信,但心里已经在嘀咕:“我儿子应该不会吧,这是造谣。”最后,第三个人来说:“曾参杀了人,你怎么还在织布?”此时,曾母扔下织布机,翻墙逃走(古代有亲属连坐的法律)。子曰:“三人成虎,一则无心,二则疑,三则信矣。”

为何曾母最后会相信这个消息?因为基于大数定律,如果曾参没有杀人,连续三个不认识的人说他杀人的概率太小了,所以曾参可能确实杀了人。曾母不自觉地运用了大数定律,改变了原来坚信儿子不会杀人的想法。

希望通过上面这个事例可以让大家感性认识一下大数定律,它也有很多量化表示方法。统计学家很早之前就总结出了各种不等式来量化地表示大数定律,比较著名的有切比雪夫、伯努利、马尔可夫、辛钦、霍夫丁等不等式。这些不等式的应用场景和内容不尽相同,但均满足一个规律:上限(不等式的右侧)越小的不等式,适用范围越窄,反之亦然。世界上的规律大都如此,越强大的工具,应用面往往就越窄。下面以应用场景比较宽泛的霍夫丁不等式为例,量化讲解一下大数定律。

P[|v-u|>ϵ]≤2exp(-2ϵ2N)

其中,N为观测样本量,v是统计值,u是真实值,ϵ为统计值与真实值之间的差距衡量。在ϵ为确定值的情况下,随着样本量N的增大,不等式的右侧逐渐趋近于0。那么,不等式的左侧(vu的差距超过ϵ的概率)也逐渐趋近于0,即v几乎等于u。这就是大数定律思想的体现:样本量越大,抽样统计值就越接近事物的真实概率。这个过程的形象表示如图1-4所示,抽样观测的平均值v呈现出以真实值u为中心的正态分布(观测误差的分布),随着样本量N的增加,平均值v的概率分布会变得越来越窄(σ3σ2σ1)。

图1-4 随着样本量N的增加,统计值与真实值的差距越来越小

大数定律生效的前提是:每次抽样观测均是独立同分布的。比如抛硬币的案例,每次抛硬币的结果均是一个独立的伯努利分布(Bernoulli Distribution,两个离散结果的分布),之前抛硬币的结果并不会影响本次抛硬币的结果。

霍夫丁不等式举例

从罐子中抽样100个球,其中,70个为绿色,30个为橙色,那么绿色球的比例抽样统计值v=70%,以ϵ=10%为衡量标准,不等式变为

P[|0.7-u|>0.1]≤2exp(-2×0.01×100)=0.27

也就是说,真实概率落在60%以下或者80%以上的概率只有27%;对于其余的73%的概率,真实统计值不会与抽样统计值相差超过10%。

样本量N越大,统计值v与真实值u相近的概率(以差距ϵ衡量)就越高。把量化的大数定律揉进统计结论,统计结论的模式会出现翻天覆地的变化。如案例3(抓球游戏)的例子,抽样观测绿球的出现概率是70%,不能下结论“罐中绿球的概率是70%”,也不能下结论“罐中绿球的概率不是70%”,只能说“罐中绿球的概率以90%的可能性为65%~75%”,这就是统计学家对统计的信任方式:基于概率的信任。运用大数定律,基于有限观测的统计学习框架也称为PAC(Probably Approximately Correct)。其中,“Correct”对应着抽样观测的结果“绿球概率是70%”,“Approximately Correct”对应着“罐中绿球的概率可能为65%~75%”,“Probably”对应着真实值在上述范围内的概率是90%。大家刚刚接触这个理念时可能会觉得怪异,统计学家既不是完全信任统计结果,也不是不信任统计结果,而是基于概率的信任!通常说某个结论是“统计置信”的,也就是指从概率上可以相信它。

有了对大数定律的理解,再回顾之前的案例4(智力测试)和案例5(函数猜测)。在这两个案例中大数定律并未直接体现,而是隐藏在背后。如在案例5中,虽然YX的关系有可能是一条曲线,只是随机抽样的5个点刚好在一条直线上,但发生这种情况的概率并不大。随着观测数量增加,例如随机抽样1000个样本点,若依然存在一条可以穿过它们的直线,那么YX不是线性关系的可能性极小,几乎可以忽略。由此,我们可以大胆地推测YX就是线性关系!

综上,在大数定律的基础上,人类通过“归纳+演绎”的方法可以学习到知识。那么也就意味着,这一方法同样适用于机器,本章就是以这一方法为基础来探讨这个过程的。