魔鬼统计学
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第一章 谁在替你思考?

推荐系统使我们的生活方便多了。想知道应该租借哪部电影录像吗?传统方法是询问好友,或者查看影评人是否给出了好评。

现在,人们会上网查看根据大众行为总结出的指南。其中,一些“偏好引擎”完全就是最流行事物的清单。《纽约时报》列出了“被电子邮件转发最多的文章”。iTunes列出了下载最多的歌曲。美味标签列出了最流行的网红美食标签。这些简单的过滤器常常可以使网民锁定最热门的事物。

一些推荐软件还不止于此,它们试图让你知道和你相似的人喜欢什么。亚马逊告诉你,购买《达芬奇密码》的人还购买了《圣血与圣杯》。网飞根据你过去推荐过的电影向你进行推荐。这是真正的“协同过滤”,因为你的电影评分帮助网飞向其他人进行更好的推荐,而他们的评分又帮助网飞对你做出更好的推荐。互联网是这种服务的完美载体,因为互联网零售商可以用很低的成本跟踪顾客行为,并且自动聚集、分析和展示这种信息,为随后的顾客服务。

当然,这些算法并非完美。沃尔玛需要向顾客道歉,因为当他们搜索《马丁·路德·金:我有一个梦想》时,网站向他们推荐了《决战猩球》系列光盘。类似地,亚马逊也会冒犯顾客。当顾客搜索“堕胎”时,网站会问“你是说领养吗?”亚马逊之所以自动生成领养的问题,是因为之前许多搜索堕胎的顾客也搜索了领养。

不过,在网上,协同过滤器对消费者和零售商来说仍然是一个巨大的福音。在网飞,近2/3的出租电影是由网站推荐的。在网飞的五星评分系统中,和那些在推荐系统之外租借的电影相比,推荐电影的评分要高出一颗星。

电子邮件转发最多的文章清单和畅销书榜单具有集中关注度的作用,而更具个性化的推荐则具有分散关注度的优点。网飞可以向不同的人推荐不同电影。因此,在该公司的5万部电影中,超过90%的电影至少每月都会得到租借。商家可以通过协同过滤器评估克里斯·安德森(Chris Anderson)所说的偏好分布的“长尾”。网飞推荐使其顾客出现在了过去很难被发现的小众市场利基之中。

同样的事情也发生在音乐领域。在潘多拉网站上,用户可以输入他们喜欢的一首歌曲或一个艺术家的名字。然后,网站几乎可以马上播放出一支又一支具有类似风格的歌曲。你喜欢辛迪·劳珀(Cyndi Lauper)和破嘴乐队吗?好,潘多拉会为你创建一个劳珀破嘴电台,用于播放这些歌手和其他类似歌手的歌曲。在每首歌播放时,你可以点击“我非常喜欢这首歌”或者“下次不要播放这种类型的歌曲了”,以便让软件更加了解你的喜好。

这个网站为我和我的孩子们提供了很好的服务。它不仅可以播放我们每个人都很喜爱的歌曲,而且找到了我们喜爱但却从未听说过的乐队的作品。例如,我告诉潘多拉,我喜欢布鲁斯·斯普林斯汀(Bruce Springsteen)。于是,它创建了一个电台,开始播放这位老大和其他著名歌手的音乐。不过,几首歌之后,我听到了一首极其悦耳的歌曲,那是基顿·西蒙斯(Keaton Simons)的《现在》(通过手边的快捷链接,你能轻松在iTunes或亚马逊上购买这首歌曲及其专辑)。这就是长尾效应,因为像我这样的书呆子永远不可能自己去搜索这个家伙的音乐。通过类似的偏好系统,Rhapsody.com的100万首歌曲中超过90%的歌曲每个月都会得到播放。

MSNBC.com最近添加了自己的“推荐故事”功能。它用插件跟踪你最近阅读的16篇文章,通过自动文本分析预测你想要阅读的新故事。在开启你的晨间阅读时,基于16个故事的预测具有极高的准确度,而且有点令人尴尬。例如,它为我自动推荐了《美国偶像》的文章。

不过,芝加哥法律教授卡斯·桑斯坦(Cass Sunstein)担心对于长尾的利用会带来社会成本。这些个性化过滤器越成功,我们作为公民群体的共同经历就越少。麻省理工教授、媒体技术大师尼古拉斯·尼葛洛庞帝(Nicholas Negroponte)在这些“个性化新闻”功能中看到了《我的日报》的苗头——这种新闻出版物只向公民提供与他们的狭隘预设偏好相匹配的信息。当然,新闻的自我过滤已经出现很长时间了。副总统切尼(Cheney)只看福布斯新闻电视台。拉尔夫·纳德(Ralph Nader)只阅读《琼斯母亲》。不同的是,现在,科技正在创造出极为强大的受众审查制度。Excite.com和Zatso.net等网站开始允许用户生成“我的报纸”和“个性化新闻播报”,其目标是创建一个“由你决定新闻”的世界。谷歌新闻允许你对新闻组进行个性化设置。电子邮件提醒和新闻推送允许你选择“这是我想要的新闻”。如果愿意,我们现在甚至可以完全摆脱我们不感兴趣的那些讨厌的社会问题新闻。

所有这些协同过滤器都属于詹姆斯·索罗维基(James Surowiecki)所说的“群体智慧”。在一些背景下,集体预测比群体中每个成员能够取得的最佳预测更加准确。例如,想象你向一个大学班级中的学生悬赏100美元,让他们对罐子里的硬币数量进行最佳估计。通过计算他们的平均估计值,你就可以得到群体智慧。事实反复证明,这个平均估计值很可能比任何个体估计值更加接近真值。一些人的猜测值太大,一些人的猜测值太小——但是较大和较小的估计值整体上往往会相互抵销,群体的预测常常优于个体。

在电视节目《谁想成为百万富翁》中,“询问观众”得到正确答案的概率超过90%(给某个朋友打电话得到正确答案的概率则不到2/3)。协同过滤器是一种定制版的观众调查。和你类似的人可以非常准确地猜测出你喜欢什么类型的音乐或电影,偏好数据库是改善个人决策的有力途径。