The Incredibles
(2006—2009)
“网飞奖”
网飞的最高原则一直是让每部电影看起来都足够诱人。这种智慧承袭自伦道夫的“直邮圣经”,在DVD业务刚刚兴起、影片选项不足并且趋于陈年旧片和不知名电影的情形下,这一原则对网飞的生存来说至关重要。
帮助订阅用户发现他们喜爱而不只是喜欢的电影,可以确保他们不断返回目录寻宝,支付月租,并宣传此项服务。其中最吸引人的是,Cinematch算法会充当向导,以喜出望外的方式引领订阅用户检索浩瀚的队列。
在最终列入订阅用户队列的影片中,差不多有70%来自Cinematch推荐。这个推荐引擎非常强大,网飞甚至用它来预测和控制其库存需求,从而帮助理顺针对新发行影片的高度需求,引导订阅用户选择更具租赁效益的老电影。搜索影片的经历对用户而言颇具吸引力,这在开始的几年里可以说是意外收获,它有可能在网飞与百视达的惨烈战争中改变游戏规则。
最初,Cinematch会根据用户此前对其他电影的评分,分类提供用户可能给予较高评分的电影名称列表,以及由网飞内容编辑创建的主题列表。用户评分的电影越多,系统就会变得越准确。随着网站功能日益精确,Cinematch将仅提供某个订阅用户可能喜欢的片名,这意味着每一位订阅用户每次登录时都会看到一个不同的网站。Cinematch和亚马逊设计的软件搭配,代表了世界上最好的协同过滤系统。
多年来,哈斯廷斯要求他的软件工程师配合数学家改进算法,并亲自予以调整。将人类行为和喜好归结为一组方程式的想法吸引了他:是否真的有可能在数字范围内捕获如此多的无序因素?
他后来指出,他对匹配算法的痴迷占据了他的空闲时间:有次圣诞节,他把自己关在位于帕克市的滑雪屋内,在笔记本电脑上设计Cinematch,妻子帕蒂抱怨他忽略了孩子们,毁了他们的假期。
到2006年,哈斯廷斯和他的团队已经竭尽所能进行了所有改进。争取局外人的帮助看来毫无意义,他聘用的是找得到的最优秀人才。和他的曾外祖父通过建立塔克西多公园实验室,以吸引世界顶尖科学家探索那个时代最大的物理学奥秘一样,哈斯廷斯决定举办百万奖金的科学竞赛,以促成为Cinematch提供支持的算法突破。曾外祖父阿尔弗雷德·李卢米斯曾以前沿设备、奢华食宿和丰厚津贴吸引了世界知名科学家到他的物理实验室搞研究。哈斯廷斯将通过提供一个科学界闻所未闻的真实世界数据集,来吸引擅长使用机器语言的科学家们参加他的竞赛。
卢米斯实验室的科学家在行将改变“二战”进程的雷达和核裂变方面竞相取得了突破;哈斯廷斯则希望“网飞奖”能迅速取得成果,以终止和百视达的战争。他欣赏的是英国政府1714年为海上经度测量法发明人颁发的价值2万英镑的“经度奖”,或者2004年为第一个可重复使用民用飞船发明人颁发的价值1000万美元的“安萨里X奖”。
100万美元现金奖将颁给一线团队,旨在将Cinematch的预测能力提高10%。此外,还有5万美元“进步奖”用于在每个竞赛发起纪念日颁给领导者。竞赛将向任何教育程度和任何背景的人开放,只要其原籍国获准与美国打交道。网飞将提供一个包括1亿订阅用户电影评分结果的数据库(剥离了个人识别信息),供参赛者以真实数据测试他们的方程式。网飞将在一个公开排行榜上持续统计各团队的进展情况,获胜者将持有算法,但必须授予网飞使用权。
就网飞五星级系统而言,10%的提高相当于将预测订阅用户电影评分结果的误差持续控制在1/2~3/4个星级。竞赛的执行任务由推荐系统副总裁詹姆斯·贝内特(James Bennett)和Pure Atria前工程师斯坦·兰宁(Stan Lanning)承担,后者曾和哈斯廷斯一道改进了Cinematch并负责电影评分系统。
兰宁面目和善,头发稀少,留着长长的灰白胡须,他的黑黝黝的办公空间摆了一排监视器,角落里还摆着一副脚踏弹簧、真人大小的塑料骨架。
史蒂夫·斯韦齐和肯·罗斯在《纽约时报》上发了一篇关于“网飞奖”的报道,但在2006年10月2日竞赛发起时,该报道以头版新闻方式见报还是让他们感到惊讶。美国和国际媒体纷纷报道这则新闻,截至当天结束时,有超过5000个团队和个人报名参赛。斯韦齐对自己当天的工作评价必然和网飞的新闻报道密切相关,对他而言,媒体对于公告的亢奋反应就像看到选举结果扑面而来,同时又得知其候选人以压倒性优势获胜。斯韦齐后来把这个奖项比作为极客而设的“普利克内斯大奖赛”“世界杯”和“超级碗”奖项的合体。
在接下来的3年里,来自186个国家的4万多个团队报名参加了这个百万美元大赛,他们被有史以来发布的最大数据集和此次竞赛的友好氛围深深吸引。随着他们开始在网飞维护的即时排行榜上发布自己的成果,并在讨论组中谈论自己的进展情况,科学家、数学家和感兴趣的业余爱好者们逐渐从零起步,创建了世界上最精确的推荐引擎。
其中有一个统计人员团队,他们致力于寻找预测人类行为的新途径。
美国电话电报公司香农实验室位于一处绿色原野的浅洼地,紧挨着新泽西州弗伦翰公园郁郁葱葱的参天大树,这里距离曼哈顿有90分钟的火车车程。这片综合建筑是方正的几何体,有一个干净、设计低调、整齐的大厅,中规中矩的走廊从大厅向外辐射。一面墙壁变成了画廊,展示的照片要么是这个独立王国里的知名科学家,要么是一些文物,比如作为装饰的早期电话机和古董级电子设备。
每层楼都有一间舒适的休息室,围绕着老式黑板布置有艺术风格的沙发和椅子,大家会坐在这里酝酿头脑风暴。网状过道营造出相当宽敞的办公面积,走廊一侧有一面大白板,另一侧则是一排窗户,可以俯瞰修剪整齐的绿地。家具非常实用,包括研究员罗伯特·贝尔(Robert Bell)在内,许多人的办公空间都沿墙整齐堆放着齐腰高的资料。
贝尔是个腼腆的加州本地人,1998年来到美国电话电报公司香农实验室。网飞宣布举行竞赛之后一两天,公司研究事务执行董事克里斯·沃林斯基(Chris Volinsky)就给弗伦翰公园的大约20名研究人员发了电子邮件,贝尔就是这样听说了“网飞奖”。沃林斯基领导着美国电话电报公司的数据挖掘小组,该小组10多年来一直在大规模预测客户潜在行为:哪些客户有可能购买iPhone,哪些客户有可能开设欺诈账户,与美国客户群相关的日益演变的风险有哪些。
数据挖掘是在庞大数据集中寻找预测性或关键性模式的过程:在生成谷歌搜索排名结果的数十亿个网站页面进行即时分类和筛选;在计算机辅助医学扫描过程中检测正常细胞的异常情况;或者猜测一组信用卡持有人的收支情况,从而揭示其对美国的潜在威胁。
科学家主持的数据挖掘必须写出算法,这种算法能观察数据集的重要模式,还能清除看似重大但不会有什么结果的关系。
沃林斯基是个合群的人,他童年时代对棒球统计数字的酷爱使他从事了数据挖掘工作。他喜欢竞赛的原因,不单是为了展示美国电话电报公司实验室的能耐,他很想在新兴领域内和世界级天才一决雌雄。沃林斯基同样爱看电影,他和同样在棒球统计领域发现自己事业所在的贝尔很高兴有机会测试浩瀚的网飞真实数据,这些数据规模超过他们所见到的其他数据。
贝尔曾经在“网飞奖”之前参加过多次竞赛并从中胜出,但本次比赛的百万美元悬赏和开放性——只要有个人电脑和互联网连接,任何人都可以参加——给竞赛平添了特殊魅力。它很快成为贝尔参加的各个学术研究团体的主要话题,他渴望通过这次机会了解自己和同行之间的胜负情况。
沃林斯基在“网飞奖”宣布不久就组织了一次头脑风暴会议,与会者大约有15人,但几周后活跃分子就锐减到3人,分别是贝尔、沃林斯基和他们年轻的以色列同事耶胡达·科伦(Yehuda Koren)。
最初,他们只是持观望态度,看到网飞发起的排行榜提出了数百个解决方案,其中至少有两个在一周内对Cinematch实施了改进。一个月后,参赛成员已经有几千个团队,其中最棒的一个团队已经利用完全原创的解决方案将Cinematch的预测能力提高了4%。百万奖金的角逐赛不仅吸引了数据挖掘精英,还吸引了精通机器语言的专家和数学界精英,以及绝顶聪明的软件开发业余爱好者,甚至包括心理学家。
每个团队每天仅可提供一个方案,但大家都在没日没夜地热烈讨论,不断有来自世界各地的参赛者登录网飞维护的论坛。
对科伦来说,这种汇聚天才头脑探讨同一个问题的非正式交流很有吸引力。他会在家里和办公室花费数小时鼓捣他们的方程式,试图在进展神速的排行榜上保持领先地位。每次调整方程式都要花费至少一周,这只能压缩常规工作时间,从而保证用一天写出拟定解决方案,用几个小时在功能强大的计算机上运行庞大的数据集,用更多时间分析结果、进行调整,然后花几个小时重新运行数据。每个人都会在闲暇时思考竞赛事宜,或许一觉醒来,就想出了一个更好的改进方法。
他们准备在比赛进行到第4个月时将自己的参赛团队BellKor推上排行榜。网飞使用一组秘密测试数据验证了他们的结果,然后允许BellKor团队进入第20名赛位。从那时起,科伦就为之痴迷,推动沃林斯基和贝尔奋力冲顶排行榜。他说:“让我们看看是否能进入前10名,然后是前5名,前3名。”
2007年4月,他们短暂占据第一赛位,不过几天后就被挤了下来。在几周时间内,他们一直和来自普林斯顿的“恐龙星球”、4支匈牙利研究团队之一的“重力”团队开展争夺头把交椅的拉锯战。BellKor在阶段性的第8个月再次夺魁,而这次他们守住了名次。他们将Cinematch的预测能力提高了8.4%,从而获得了第一笔金额达5万美元的“进步奖”。随着他们进入第二年赛季,似乎就要将大奖收入囊中。
算法推荐
1999年,当包括哈斯廷斯在内的网飞创始软件工程师打算设计一个推荐引擎时,他们的初始方法都相当幼稚,想通过共同属性,即流派、演员、导演、背景、戏剧或悲剧将电影归类。随着电影库存的增多,这种方法被证明很烦琐,而且不准确,因为无论他们赋予每部电影多少属性,他们都无法捕获《风月俏佳人》(Pretty Woman)和《美国舞男》(American Gigolo)的区别所在。这两部电影都是理查·基尔(Richard Gere)主演并以美国大城市为背景的卖淫题材影片,但两者不可能吸引同一批观众。
早期推荐引擎无法进行预测。一次广为人知的失误是,沃尔玛网站向寻找“黑人历史月”相关电影的购物者推荐了电影《人猿星球》(Planet of the Apes),之后它不得不致歉并终止其引擎运行。
接下来,网飞的软件工程师转向了一个“最相似”算法,这种算法主要是基于用户的电影爱好对其进行分组,而不是将影片串联起来。
到“网飞奖”宣布举行时,订阅用户已经对6万部电影和电视节目进行了10亿次评分,这是一个丰富的数据集,只是Cinematch没有探测到它的微妙之处。
BellKor和其他团队从零起步,写出了各自的推荐算法,而且他们在短短几个月内就经历了网飞花费数年时间走过的学习曲线,之后更是超越了这一局限。他们创建的算法发现了庞大数据集的玄妙之处,而这些对沃林斯基、贝尔和科伦来说是完全陌生的。算法分析了根据订阅用户评分创建的模式,给电影分配了它自己的描述符,这些描述比“导演”“演员”“流派”之类的标签更丰富也更精确,但对人类思维而言没有任何实际意义。
例如,贝尔注意到,这个算法“学习”到喜欢伍迪·艾伦电影的订阅用户往往只关心艾伦主演(或者在他职业生涯的某个时期或者在特定背景下主演)的特定类型电影,从而不再推荐相关导演的其他作品。
第二年赛季的进展放缓了,尤其是BellKor在“网飞奖”规则要求的一篇论文中泄露了它的解决方案,BellKor团队眼睁睁地看着别人借助他们的方法日益逼近。他们开始在对Cinematch8.6%的改进率上停滞。
第二年赛季即将过半时,科伦在雅虎以色列研究院谋得一份工作,他不确定自己未来的发展方向,只好在离开前全力解决这个难题。他们的发展势头时而放缓到0.5个百分点,时而放缓到0.1个百分点,于是贝尔和沃林斯基把目光投向了排行榜,要寻找能带领他们走出低谷的新鲜血液。
一个被称为“大混沌”的新团队(两个年轻的奥地利数学家,他们曾为BellKor奠定开局年基础,其排名正在飙升)吸引了贝尔和沃林斯基的注意。在一次旨在观察其解决方案和性格是否符合要求的科技“相亲”中,贝尔给这个团队的安德烈亚斯·托斯凯尔(Andreas Toscher)和迈克尔·亚赫里尔(Michael Jahrer)发送了电子邮件,探讨达成某种联盟的可能性。BellKor团队在一系列电子邮件沟通之后,确信托斯凯尔和亚赫里尔会坦诚以待,他们在越洋电话中达成联手,结成“大混沌中的BellKor”团队。
接着,他们开始寻找会影响人们以特定方式进行电影评分的环境和心理因素。订阅用户在周末评分时会不会比平日多少宽容些?一次给很多电影评分会导致什么后果?人们会不会基于心情给出不同评分?如果是,怎样将其量化?
作为苛刻评分人或者宽容评分人的个人性格是否会随时间发生变化?如果是,变化的方式和原因是什么?
每个问题都变成了有关其自身的一个有待测试的方程式,在结果一致且相关的情况下,这个方程式会被并入构成其制胜公式的方程组中。
由于对Cinematch的改进停滞在令人痛苦的0.5和0.1个百分点,有一小部分电影逃避了分类,并在第二年成为横亘在“网飞奖”参赛选手及百万美元支付日之间的主要障碍。这些电影通常具有讽刺性或争论性,至于它们是杰作还是垃圾,观众和评论家有迥然不同的看法。
这类电影中的典型,是独立制作的荒诞片《大人物拿破仑》(Napoleon Dynamite)(这个片名在所有BellKor模型中导致了最大出错率)以及具有政治倾向性的电影,后者如迈克尔·摩尔的纪录片《华氏911》(Fahrenheit 9/11),讲述针对纽约和华盛顿的恐怖袭击及第二次伊拉克战争。
当对《我爱哈克比》(I Heart Huckabees)《迷失东京》《水中生活》(The Life Aquatic with Steve Zissou)和《耶稣受难记》(The Passion of the Christ)之类的电影打分成为一种冒险行为时,预测订阅用户会选择哪一方评分会带来歧视性。此前的评分完全没有表明人们对这类电影的感受。
贝尔推论说,《大人物拿破仑》问题的解决方案不仅在于找到类似电影,还要教会算法在它并未足够了解某个订阅用户的情况下进行大胆预测。这样的结果就是一个方程式,它会忽略那些评分过低或者那些对每一类型电影打分过高的订阅用户,或者忽略少量忽高忽低的评分。
尽管第二年有了开创性见解,团队只是在上一年进展的基础上勉强实现了1%的提高。“大混沌中的BellKor”再次斩获5万美元的“进步奖”,其奖项宝库日益充实,其中包括他们上一年赢取并放置在美国电话电报公司香农实验室大厅的“好莱坞星光大道”之星的俗气复制品。
2009年退休的网飞员工贝内特怀疑究竟有没有人能拿到百万大奖。2009年1月,竞赛再次隆重启动。为了赢取大奖,各团队拼命拉近与“大混沌中的BellKor”成果之间不足1%的差距,使得排行榜上热闹非凡。
各团队开始了规模宏大的组合,希望各种方法的结合有助于弥合最后几个千分点的差距,使其超越10%的阈值。“大混沌中的BellKor”也开始寻找新思路。他们找到了两个法裔加拿大软件程序员马丁·沙贝尔(Martin Chabbert)和马丁·皮奥特(Martin Piotte),两人结合了“进步奖”获胜方程式和自己的非主流解决方案,刚刚进入排行榜。
沙贝尔和皮奥特自称“实用主义理论”团队,他们没有接受过任何有关数据挖掘方法的培训,而且他们有意不去学习大奖赛前两年生成的研究结果。他们说,他们喜欢的解决方案是发现订阅用户数据或心理因素方面的模式,并将其转化为有效的软件模型。他们排斥外部电影数据,注重预测评分结果,而不尝试利用它们的公式对其加以说明。
“这个算法能发现存在于无穷灰影部分的实际数据模式,它比分配给黑白盒的任何形式的元数据更加强大。”沙贝尔说。
他们的创造力将其联合团队(现在被称为“BellKor的实用主义混沌”)的改进速度提高了关键性的0.65个百分点,使他们在2009年6月26日突破了10%这一阈值。
“网飞奖”要求一个为期30天的最后挑战期,参赛团队可以在此期间挑战BellKor可能胜出的提案,这让他们所有人都感到伤透脑筋。几个排名靠前的团队结合为“合唱组”团队,并在2009年7月25日提交了一个领先BellKor团队0.04个百分点的解决方案。
在竞赛截止前扣人心弦的24小时里,科伦和“BellKor的实用主义混沌”团队不停地接触,竭力从其方程组中额外取得0.1或0.2个百分点。他们最终提交了自己最后也是最好的解决方案,并分别在4个国家等待竞赛落幕。20分钟后,“合唱组”的结果领先了“BellKor的实用主义混沌”0.01个百分点。
比赛结束大约一个小时之后,网飞陷入了沉默。正在西雅图度假的沃林斯基每隔一段时间就会溜到一边检查他的电子邮件。当初他们赢得两项“进步奖”时,网飞在获奖几分钟之内就发来了通知。
心情沮丧的沃林斯基与回到新泽西的贝尔和其他团队成员交换了意见,并决定关掉自己的手机。他忍不住一次次点击刷新按钮,当电子邮件完成加载时他看到了想要的东西:来自网飞的信息。
他们赢了。
“BellKor的实用主义混沌”团队成员们第一次现身,他们聚集在纽约市四季酒店的新闻发布会上接受哈斯廷斯颁发的奖章,出席会议的有美国电话电报公司实验室主任、哈斯廷斯、网飞首席技术官尼尔·亨特、“合唱组”团队,还有一个记者团。
哈斯廷斯本不愿意去纽约召开新闻发布会,而是希望在洛斯加托斯举行,但斯韦齐坚持这么做。他知道,这个奖项及其将近3年来的争夺战已经吸引了全球科学界及相当多普通人的关注。他们的成就值得通过一个全力以赴组织的正式典礼加以庆祝,仪式上要有演讲、要有授予获胜者金牌奖章的环节,还要安排媒体采访。
典礼结束后,获胜团队召开了一次技术简介会议,对他们的成功之路加以说明。到场人数让斯韦齐非常兴奋,几乎所有媒体都愿意留下来听取极其晦涩且长达一个小时的情况介绍,这更让他感到喜出望外。这次会议强调了斯韦齐3年来在幕后所做的扎实工作,因为他激发了媒体对一场科学竞赛的兴趣。为了庆祝自己当天成功制造头条新闻,他从四季酒店的拐角处溜出去,一个人享用了价格不菲却平淡无奇的寿司晚餐,一切乐趣戛然而止,这让他感到一丝凄凉。
“网飞奖”的新闻发布会形式及其品牌横幅、醒目的道具和高科技硬件,后来成为低调的网飞国际服务推介会的范本。
贝尔和沃林斯基并未保留这笔奖金,而是各自指定了一个慈善机构作为捐赠对象。根据竞赛规则的要求,美国电话电报公司授权网飞使用胜出算法,并将它应用到自己的U-verse电视服务中,以监测用户的观看习惯,并推荐他们可能喜欢的节目。
这次比赛成就了一个颇为先进的推荐系统,它能从行为线索中读取人们的观影喜好,也不再需要评分系统提供过多信息,尤其是当它搭配一个流媒体应用程序时。例如,这个系统可以快速测定特定订阅用户在星期一至星期五的某个晚上观看喜剧、在周末肆意观看几集警察题材的电视剧,或在特定演员或场景出现时回看剧情的情况。
“我们在获取你的喜好信息,而你什么都不用做。”沃林斯基在比赛结束后告诉我。订阅用户甚至不需要再为电影打分,因为嵌入机顶盒或网飞网站的一个程序会监测他们观看的节目和电影及观看方式,从而弄清楚其选择是否值得记忆,以及如何在流媒体库提供的电影上重复这一经验。如果算法精确的机会比失误的机会多,它就具备了一个成功品牌的要素——用户的信任。
Cinematch算法代表着市场营销和技术的联姻,它赋予了网飞如此非凡的成就。由于用户在有限的DVD仓库中发现了他们想要的东西,他们会在离开视频门店之后上网追随网飞。他们给予这家公司的信任(辅以伦道夫的直观用户界面和无敌客户服务,以及哈斯廷斯的美妙算法),使得它可以将电影租赁模式顺利转向流媒体传输,而其他诸多公司曾在这个领域遭遇了滑铁卢。