1.3.2 视频网站是怎么做推荐系统的
随着流媒体的兴起,视频行业从最开始的检索系统逐渐拓展到推荐系统。其中比较有名的有Youtube、哔哩哔哩、Netflix等。2006年,Netflix为其推荐系统举办了百万美元奖金的推荐大赛,最终得奖的SVD++模型将其推荐精度提升了10%。当然,在技术快速迭代的今天,SVD++模型已经过时了,目前的视频推荐和电商系统一样,是一个极其复杂的系统。
著名视频网站Y的推荐首页如图1-8所示。页面最上面是一个简单的搜索框,这是视频网站最原始的功能——搜索。接下来该网站会显示几个标签(tab),这些标签是个性化的,每个人界面中的标签都不一样。个性化标签主要是依据用户观看历史和搜索框中的搜索历史产生的,可方便用户进行快速的兴趣定位。再往下是两个大卡片,主要展现的是个性化的广告,这个广告是根据地区和广告竞价费用所决定的。毫无疑问,能出现在首页的广告都是很贵的,不过也不是盲目进行投送的。再往下是4个小卡片,主要展现的是个性化的视频推送,主要内容是根据用户平时的浏览记录和通过搜索框的一些搜索来展示的。整个网站背后的推荐算法遵循的都是冷启动—召回—粗排—精排—重排的框架逻辑。不过,比起其他企业看重精度的精排,网站Y近些年的精排更加注重视频的多样性,因此该网站上线了以强化学习为主的精排模型并取得了较好的业务效果。当继续下滑页面的时候,会发现内容风格逐渐有了变化,比较图1-8下半部分的4个小卡片,其中的3个与音乐相关,1个与电视剧相关。但是,滑到图1-9,第一排的4个卡片中,2个与音乐相关,且有一个是直播的卡片。另外两个中,一个与娱乐节目相关,一个与地理相关。可能的原因是,第一批展现的4个卡片用户并没有点击,也就是说用户可能并不是很感兴趣,所以,接下来网站要给用户展现一些不同风格的视频。
图1-8 著名视频网站Y的推荐首页
接着看图1-9所示的下面一排卡片,很明显,卡片内容变为3个与电视娱乐相关、1个与音乐相关。因此,我们从图1-8和图1-9可以明显感觉到,网站Y的个性化推荐不仅依照了历史搜索和浏览记录,还会根据当前用户的行为进行实时的策略调整。这背后的逻辑或多或少存在着强化学习的影子。此外,图1-8展现的4个视频中,有3个都是笔者之前点击过的视频或者与其相关的视频。但是在图1-9展现的视频中,除了一个视频笔者在半年前浏览过,其他的都没有看过,但是,网站确实击中了笔者的大部分兴趣点。比如,最后一个视频就是笔者一直想看,但是又没有时间看的视频。
图1-9 著名视频网站Y的推荐页面
图1-10是著名视频网站B的推荐首页。很明显,比起网站Y,网站B的主页要复杂得多。第一排显示的是网页的基础功能——搜索,不过这里嵌入了一个搜索纹,经过笔者检测,这也是一个个性化的搜索纹。不同于某些网站的动态搜索纹,网站B的搜索纹是一次性的,并不会隔几秒自动替换新的搜索纹。再往下是一系列的标签,不同于网站Y,这里的标签不是个性化的,会一次性展示很多的标签供用户选择。再往下,左边的大卡片展现的是网站B主推的广告节目,右边的4个小卡片是个性化的视频。
再往下是4个小卡片,其中3个是个性化视频、1个是广告,如图1-11所示。同时,每个视频上都展现了播放数和弹幕数。弹幕是网站B的特色,为网站B的推荐增添了不少的光彩。这里着重说一下网站B的推荐反馈机制。该机制相比较于其他网站的推荐系统的反馈机制要丰富很多,不仅有点击、播放、评论、点赞、转发、关注和收藏等视频类网站的基本反馈操作,还有投币、弹幕。特别是弹幕,弹幕显示了大量用户的反馈,无疑为推荐系统提供了很好的反馈信息。
通过网站Y和网站B的主页我们可以发现,视频网站的推荐系统首先要具备正常的搜索功能,其次应该有让用户快速导航的标签,最后才是一系列广告和个性化视频的推荐。我们可以明显地感觉到,现在的视频网站不再单纯地推荐个性化视频,还会在其中插入直播和广告。因此,这不仅是一个视频推荐业务的问题,还涉及直播推荐和广告推荐。那么,怎么在保证个性化的前提下,分给直播和广告足够多的流量,并且选择合适的位置进行插入,是每一个视频推荐算法工程师需要着重思考的问题。
图1-10 著名视频网站B的推荐首页
图1-11 著名视频网站B的推荐页面