Slope One协同过滤算法

Slope One是一个简单高效的协同过滤算法,由 Daniel Lemire 教授在 2005 年提出。

基本概念

用户X,Y和Z都对Item1打了分。 同时用户X,Y还对Item2打了分,用户Z对Item2可能会打多少分呢?

用户 对Item1的评分 对Item2的评分
X 5 3
Y 4 3
Z 4 ?

计算方法:4 – ((5-3) + (4-3))/2 = 2.5,找到对Item1和Item2都打过分的用户,算出rating差的平均值,这样我们就能推测出对Item1打过分的用户Z对Item2的可能的评分,并据此向Z用户推荐新项目。

Slope One的优点

这里我们能看出Slope One算法的一个很大的优点,在只有很少的数据时候也能得到一个相对准确的推荐, 这一点可以解决Cold Start的问题。

另外一种情况

如果100个用户对Item1和Item2的评分差的平均值是2,1000个用户对Item2和Item3的评分差的平均值是-3,那Item1相对Item3的评分情况又是如何?显然这两个rating差的权重是不一样的。因此我们的计算过程是:

  • (100×(Rating 1 to 2) + 1000×(Rating 3 to 2)) / (100 + 1000)
  • (100×2 + 1000×(-3)) / (100 + 1000)
  • -2800/1100
  • 约等于-2.55

也就是说Item1和Item3的评分差的平均值是2.55

协同过滤的几种应用方式

以使用者为基础(User-based)的协同过滤:

用相似统计的方法得到具有相似爱好或者兴趣的相邻使用者,所以称之为以使用者为基础(User-based)的协同过滤或基于邻居的协同过滤(Neighbor-based Collaborative Filtering)。方法步骤:

1.收集使用者资讯

收集可以代表使用者兴趣的资讯。一般的网站系统使用评分的方式或是给予评价,这种方式被称为「主动评分」。另外一种是「被动评分」,是根据使用者的行为模式由系统代替使用者完成评价,不需要使用者直接打分或输入评价资料。电子商务网站在被动评分的资料获取上有其优势,使用者购买的商品记录是相当有用的资料。

2.最近邻搜索(Nearest neighbor search, NNS)

以使用者为基础(User-based)的协同过滤的出发点是与使用者兴趣爱好相同的另一组使用者,就是计算两个使用者的相似度。例如:寻找n个和A有相似兴趣使用者,把他们对M的评分作为A对M的评分预测。一般会根据资料的不同选择不同的演算法,目前较多使用的相似度演算法有Person Correlation Coefficient、Cosine-based Similarity、Adjusted Cosine Similarity。

3.产生推荐结果

有了最近邻集合,就可以对目标使用者的兴趣进行预测,产生推荐结果。依据推荐目的的不同进行不同形式的推荐,较常见的推荐结果有Top-N推荐和关联推荐。 Top-N推荐是针对个体使用者产生,对每个人产生不一样的结果,例如:透过对A使用者的最近邻使用者进行统计,选择出现频率高且在A使用者的评分项目中不存在的,作为推荐结果。关联推荐是对最近邻使用者的记录进行关联规则(association rules)挖掘。

以项目为基础(Item-based)的协同过滤:

以使用者为基础的协同推荐演算法随着使用者数量的增多,计算的时间就会变长,所以在2001年Sarwar提出了基于项目的协同过滤推荐演算法(Item-based Collaborative Filtering Algorithms)。以项目为基础的协同过滤方法有一个基本的假设:“能够引起使用者兴趣的项目,必定与其之前评分高的项目相似”,透过计算项目之间的相似性来代替使用者之间的相似性。方法步骤:

1.收集使用者资讯

同以使用者为基础(User-based)的协同过滤。

2.针对项目的最近邻搜索

先计算己评价项目和待预测项目的相似度,并以相似度作为权重,加权各已评价项目的分数,得到待预测项目的预测值。例如:要对项目A和项目B进行相似性计算,要先找出同时对A和B打过分的组合,对这些组合进行相似度计算,常用的演算法同以使用者为基础(User-based )的协同过滤。

3.产生推荐结果

以项目为基础的协同过滤不用考虑使用者间的差别,所以精度比较差。但是却不需要使用者的历史资料,或是进行使用者识别。对于项目来讲,它们之间的相似性要稳定很多,因此可以离线完成工作量最大的相似性计算步骤,从而降低了线上计算量,提高推荐效率,尤其是在使用者多于项目的情形下尤为显著。

以模型为基础(Model- based)的协同过滤:

以使用者为基础(User-based)的协同过滤和以项目为基础(Item-based)的协同过滤统称为以记忆为基础(Memory based)的协同过滤技术,他们共有的缺点是资料稀疏,难以处理大资料量影响即时结果,因此发展出以模型为基础的协同过滤技术。以模型为基础的协同过滤(Model-based Collaborative Filtering)是先用历史资料得到一个模型,再用此模型进行预测。以模型为基础的协同过滤广泛使用的技术包括Latent Semantic Indexing、 Bayesian Networks…等,根据对一个样本的分析得到模型。

协同过滤的优缺点

优点(使用者的角度):

  • 能够过滤机器难以自动内容分析的资讯,如艺术品,音乐等。
  • 共用其他人的经验,避免了内容分析的不完全或不精确,并且能够基于一些复杂的,难以表述的概念(如信息品质、个人品味)进行过滤。
  • 有推荐新资讯的能力。可以发现内容上完全不相似的信息,使用者对推荐信息的内容事先是预料不到的。可以发现使用者潜在的但自己尚未发现的兴趣偏好。
  • 推荐个性化、自动化程度高。能够有效的利用其他相似使用者的回馈信息。加快个性化学习的速度。

缺点:

虽然协同过滤作为一推荐机制有其相当的应用,但协同过滤仍有许多的问题需要解决。整体而言,最典型的问题有:

  • 新使用者问题(New User Problem),系统开始时推荐品质较差。
  • 新项目问题(New Item Problem),品质取决于历史资料集。
  • 稀疏性问题(Sparsity) 。
  • 系统延伸性问题(Scalability)。

协同过滤发展历史

Tapestry(1992)

这是最早应用协同过滤系统的设计,主要是解决Xerox公司在Palo Alto的研究中心资讯过载的问题。这个研究中心的员工每天会收到非常多的电子邮件却无从筛选分类,于是研究中心便发展这项实验性的邮件系统来帮助员工解决这项问题。其运作机制大致如下:

  • 个人决定自己的感兴趣的邮件类型;
  • 个人旋及随机发出一项资讯需求,可预测的结果是会收到非常多相关的文件;
  • 从这些文件中个人选出至少三笔资料是其认为有用、会想要看的;
  • 系统便将之记录起来成为个人邮件系统内的过滤器,从此以后经过过滤的文件会最先送达信箱;

以上是协同过滤最早的应用。

GroupLens(1994)

这个系统主要是应用在新闻的筛选上,帮助新闻的阅听者过滤其感兴趣的新闻内容,阅听者看过内容后给一个评比的分数,系统会将分数记录起来以备未来参考之用,假设前提是阅听者以前感兴趣的东西在未来也会有兴趣阅听,若阅听者不愿揭露自己的身分也可以匿名进行评分。和Tapestry不同之处有两点,首先,Tapestry专指一个点(如一个网站内、一个系统内)的过滤机制;GroupLens则是跨点跨系统的新闻过滤机制。再来,Tapestry不会将同一笔资料的评比总和起来;GroupLens会将同一笔资料从不同使用者得到的评比加总。 GroupLens具有以下特点:

  • 开放性:所有的新闻阅听者皆可使用,虽然系统委托Better Bit Bureau设计给分的系统,但若有不同的评分机制也适用于GroupLens。
  • 方便性:给分并不是一件困难的事情且沟通上非常方便,评分结果容易诠释。
  • 规模性:有可能发展成大规模的系统,一旦发展成大规模,储存空间与计算成本问题显得相当棘手。
  • 隐密性:如果使用者不想让别人知道他是谁,别人就不会知道。

由此可以看出,现今网络各个推荐系统的雏形已然形成,在GroupLens之后还有性质相近的MovieLens,电影推荐系统;Ringo,音乐推荐系统;Video Recommender,影音推荐系统;以及Jster,笑话推荐系统等等。乃至于今日的YouTube、aNobii皆是相似性值得网络推荐平台,较不同的是经过时间推移,网络越来越发达,使用者越来越多,系统也发展得越来越严密。

电子商务的推荐系统

最著名的电子商务推荐系统应属亚马逊网络书店(Amazon.com),顾客选择一本自己感兴趣的书籍,马上会在底下看到一行“Customer Who Bought This Item Also Bought”,亚马逊是在“对同样一本书有兴趣的读者们兴趣在某种程度上相近”的假设前提下提供这样的推荐。此举也成为亚马逊网络书店为人所津津乐道的一项服务。各网络书店也跟进做这样的推荐服务,如台湾的博客来网络书店。另外一个著名的例子是Facebook的广告,系统根据个人资料、周遭朋友感兴趣的广告等等对个人提供广告推销,也是一项协同过滤重要的里程碑,和前二者Tapestry、GroupLens不同的是,在这里虽然商业气息浓厚,但同时还是带给使用者很大的方便。

最后总结

以上为三项协同过滤发展上重要的里程碑,从早期单一系统内的邮件、文件过滤,到跨系统的新闻、电影、音乐过滤,乃至于今日横行互联网的电子商务,虽然目的不太相同,但带给使用者的方便是大家都不能否定的。

这是一个关于协同过滤(Collaborative Filtering)的扫盲系列。虽不一定能解决实际问题,但协同过滤作为一种信息处理方式所起的作用将越来越大,那么现在就开始吧:

协同过滤的定义:

协同过滤(Collaborative Filtering)简单来说是利用某兴趣相投、拥有共同经验之群体的喜好来推荐使用者感兴趣的信息。个人透过合作的机制给予信息相当程度的回应(如评分)并记录下来以达到过滤的目的进而帮助别人筛选信息。回应不一定局限于特别感兴趣的,特别不感兴趣信息的记录也相当重要。协同过滤又可分为评比(rating)或者群体过滤(social filtering)。后者成为电子商务当中很重要的一环,即根据某顾客以往的购买行为以及从具有相似购买行为的顾客群的购买行为去推荐这个顾客其“可能喜欢的品项”,也就是藉由社群的喜好提供个性化的信息、商品等的推荐服务。除了推荐之外,近年来也发展出数学运算让系统自动计算喜好的强弱进而使得过滤的内容更有依据,也许不是百分之百完全准确,但由于加入了强弱的评比让这个概念的应用更为广泛。除了电子商务之外尚有资讯检索领域、网络个人影音柜、个人书架等的应用等,豆瓣就是一个使用协同过滤的好例子。

协同过滤的本质及基本假设:

基于一组兴趣相同的用户进行推荐。它基于这样一个假设:为用户找到他真正感兴趣的内容的好方法是首先找到与他兴趣相似的用户,然后将这些用户感兴趣的内容推荐给此用户。

协同过滤的分类:

基于用户(User-based)、基于项目(Item-based)、基于模型(Modal-based)。

哪些地方用到了协同过滤

豆瓣、Amazon、Netfix等等内容或电子商务网站都采用协同过滤来给用户推荐内容。