简介:用户在意图明确的情况下,可以通过关键词进行搜索。那么,当用户不知道自己真正想要的是什么的时候,系统如何给出用户可能想要的结果来满足自己的需求呢?推荐系统可以解决这样的问题。
比如用户在寻找喜欢的音乐,但是没有具体的歌名或者歌手,短时间内很难找到真正合适的音乐。这时候就需要分析用户的历史行为,然后找出用户可能感兴趣的音乐推荐给用户。这就是推荐系统需要完成的工作。
作者:刘玉钊刘泓宇舒斌孙明珠
01什么是推荐系统?
推荐系统是一个可以找出用户和文章之间关系的信息过滤系统。推荐系统有两个突出的特点。
主动性:从用户角度考虑,前文提到的搜索引擎都是为了解决信息过载问题而存在的,需要用户提供明确的需求。当用户无法准确描述自己的需求时,搜索引擎就不能够为用户提供精确的服务了。而推荐系统不需要用户提供明确的需求,能够自主地通过分析用户和物品之间的关联数据进行建模,为用户提供可能感兴趣的信息。个性化:推荐系统能够挖掘冷门信息推荐给用户。热门物品通常能够代表大多数人的喜好,冷门物品往往只能代表少数人的个性化需求,但冷门物品所带来的收益可能超过热门物品,所以挖掘长尾冷门信息是推荐系统的方向。
简而言之,推荐系统推荐的物品通常要么对用户有帮助,要么是用户自己感兴趣。
02推荐系统应用场景
与搜索系统不同,推荐系统主要利用用户的行为数据,分析用户的行为日志,从而提供不同的推荐页面,提高网站的用户满意度、点击率和转化率。常见的推荐系统有三种推荐形式:个性化推荐、相关推荐和大众化推荐。
个性化推荐经常以“猜你喜欢”“发现”等形式在首页出现;相关推荐经常以“相关推荐”“看了又看”等形式放在内容详情页;“热门推荐”按照各类数据的统计结果进行推荐。
推荐系统常见的应用场景包括:电子商务、个性化广告、音乐电影、求职等。
电子商务推荐系统有着广泛的应用场景。推荐系统可以帮助很多用户在淘宝和天猫上完成消费。有许多推荐的函数。以“淘宝”为例,其主要推荐功能有:相关商品、店铺推荐、买买买、看看看看、猜猜你喜欢什么等。
淘宝首页“猜你喜欢”的商品,商品详情页“看了又看”的商品,订单详情页“你可能还喜欢”的显示如图2-3所示。
▲图2-3▲图2-3
淘宝的推荐算法包含了基于内容的推荐成分。比如推荐系统需要给用户和产品贴标签,通过算法匹配给用户推荐产品。还有一种方法是基于协同的思想,可以根据一个顾客过去的购买行为,或者通过有类似购买行为的顾客的购买行为,推荐顾客可能喜欢的产品。
在大众音乐中,怎样才能找到自己喜欢的音乐?推荐系统在这个过程中扮演着重要的角色。以网易云音乐为例。网易云音乐的主要推荐场景有:每日推荐、歌单推荐、电台推荐等。
“私人FM”和“每日歌曲推荐”是经过多重计算后得出的相关推荐结果,整合了用户的收听记录、喜欢的歌曲、歌单、歌手、观看过的mv和本地歌曲。
网易音乐还设立了“每日推荐”项目,收集用户日常行为数据,不断完善和丰富用户画像。“歌单”和“电台”的推荐功能是一样的,主要是收集用户偏好和行为数据。
同时,网易云音乐的推荐应用具有用户自行标记的功能,即当系统推荐不准确时,用户可以自行标记。
03推荐系统的分类
推荐系统有不同的分类方法。常见的分类方法有:根据推荐结果分类、根据推荐方法分类、根据推荐模型构建分类。因为推荐算法是整个推荐系统的核心部分,所以推荐系统也可以根据推荐算法进行分类。基于此,推荐系统可以分为基于内容的推荐、基于协同过滤的推荐和混合推荐方法。
1.基于内容的推荐
基于内容的推荐策略起源于信息检索领域,是搜索领域的一个重要研究方向。该方法利用用户选择的对象,从候选集合中找出与用户选择的对象相似的对象作为推荐结果。这种推荐策略是首先提取推荐对象的内容特征,并与用户模型中的用户兴趣进行匹配。匹配度高的对象可以作为推荐结果推荐给用户。
计算推荐对象的内容特征与用户模型中的兴趣特征之间的相似度是内容推荐策略的关键步骤。一般最简单的方法是计算两个向量夹角的余弦。
基于内容的推荐策略的主要部分是用户特征的描述和推荐对象内容特征的提取。目前,文本信息的特征提取方法已经比较成熟,但是多媒体信息的特征提取技术还需要进一步探索。图2-6是基于内容的推荐。用户A喜欢具有A和B特征的产品A,而产品C也是A和B类型,产品C与产品A相似,所以产品C推荐给用户A。
▲图2-6 基于内容的推荐▲图2-6基于内容的推荐
基于内容的推荐策略的优点是:
简单有效,推荐结果较为直观,可解释性强;没有新推荐对象的冷启动问题;简单的分类方法就能够支持该策略。
缺点:
受推荐对象特征提取能力的限制,对图像、视频、声音等多媒体资源的特征提取以及文本资源的提取不够全面;很难推出新颖的推荐结果,惊喜度指标较低,难以发现用户新的兴趣点;存在新用户的冷启动问题,因为很难发现新用户的兴趣爱好,无法和推荐对象的内容特征进行匹配。
2.基于协同过滤的推荐
目前,基于协同过滤的推荐是推荐系统中应用最广泛、最有效的推荐策略。它出现于20世纪90年代,促进了推荐系统的发展。协同过滤的基本思想是聚类。
比如你身边很多朋友选择了某种商品,他们也会大概率选择该商品;或者用户选中某个商品,看到类似的商品,其他人对该商品评价很高,购买该商品的概率就会很高。
协同过滤可以分为三种:基于用户的协同过滤、基于项目的协同过滤和基于模型的协同过滤。
1)基于用户的协同过滤的基本思想是先找到一组与目标用户兴趣相似的用户,然后在这组用户中找到用户喜欢的、从未听说过的项目并推荐给目标用户。
图2-7是基于用户的协同过滤的实现逻辑。用户a喜欢商品a和商品c,用户c喜欢商品a、商品c和商品d,用户a和用户c兴趣相近,所以向用户a推荐商品d..
▲图2-7 基于用户的协同过滤▲图2-7基于用户的协同过滤
2)基于项目的协同过滤的基本思想是一种基于所有用户对推荐对象评价的推荐策略。如果大多数用户对一些推荐对象具有相似的评级,则当前用户对这些推荐对象具有相似的评级。然后将相似推荐对象中未被用户评价的产品推荐给用户。
简而言之,基于项目的协同过滤就是根据用户对推荐对象的评价,找到对象之间的相似性,根据用户的历史偏好,向用户推荐相似的产品。
图2-8显示了基于项目的协同过滤的实现逻辑。用户A喜欢商品A和商品C,用户B喜欢商品A、商品B和商品C,用户C喜欢商品A,通过这些用户的喜好可以判断出商品A和商品C相似,喜欢商品A的用户也喜欢商品C,于是向喜欢商品A的用户C推荐商品C。
▲图2-8 基于项目的协同过滤▲图2-8基于项目的协同过滤
3)基于模型的协同过滤的基本思想是基于样本用户的偏好信息训练一个推荐模型,然后根据实时的用户偏好信息进行推荐。两种协同推荐的区别在于,通过对已有数据应用统计学和机器学习得到模型,然后进行预测。常用的方法有机器学习方法、统计模型、贝叶斯模型和线性回归模型。
基于协同过滤的推荐优势包括:
可以使用在复杂的非结构化对象上;能够发现用户新的兴趣爱好,给用户带来惊喜;以用户为中心的自动推荐,随着用户数量的增加,用户体验也会越来越好。
缺点是:
存在冷启动问题,即在没有大量用户数据的情况下,用户可能不满意获得的推荐结果;存在稀疏性问题,即用户大量增长的同时,评价差异性会越来越大,推荐对象也越来越多,导致大量的推荐对象没有经过用户评价,部分用户无法获得推荐结果,部分推荐对象无法被推荐。
3.混合推荐方法
各种推荐方式各有利弊。在实际应用中,可以采用推荐策略的组合,即混合推荐方法。目前应用最广泛的混合推荐方法是基于内容的推荐和协同过滤推荐的结合。根据不同的应用场景,组合方式不同,主要有两种混合方式。
推荐结果混合:将多种推荐方法产生的结果通过某种方式进行混合计算而产生最终的推荐结果。如何从多个推荐结果中选出推给用户的最终结果成为混合推荐的关键。常见的机制是投票机制,即使用一定的标准对多个结果进行判断,选择其中之一。推荐算法的混合:以某一种推荐策略作为框架,混合另外的推荐策略,如基于协同过滤推荐的框架混合基于内容的推荐策略。
搜索和推荐的区别
搜索和推荐是用户解决信息过载的有效手段,可以帮助用户快速准确地定位到想要的信息。互联网搜索和推荐大量并存。两者有什么区别?
1.根据用户意图是否明确,我们可以区分两者。
搜索引擎是一种用户意图明确的信息检索方式。用户可以提供查询关键词,引导搜索引擎查询相关内容。该过程由用户发起。相反,当用户意图不够明确时,推荐系统此时就可以满足用户的需求。
比如一个音乐播放器根据用户的喜好和历史行为给出用户的推荐列表,一个电商平台根据用户的购买、浏览等记录给出用户可能喜欢的商品列表。这些都是用户在意图不明确的情况下被动接受的内容。正是因为推荐系统不需要显性的搜索内容,才能够满足用户难以用语言表达的需求。
2.他们之间的个性化差异。
当用户输入想要检索的内容时,搜索引擎显示的结果基本是固定的,个性化程度较低。该系统是高度个性化的,因为推荐没有标准答案。推荐系统可以根据每个用户的历史观看行为和评分记录,生成一个目前对用户最有价值的结果,这也是推荐系统的独特魅力。
3.不同的评估标准
搜索质量的重要评价标准是能否帮助用户快速找到准确的结果,所以搜索引擎的排名算法需要尽可能把最好的结果放在前面。总而言之,一个“好”的搜索算法需要让用户以更高的效率和更短的停留时间获取信息。
搜索引擎常用的评价指标包括归一化累积损失增益(nDCG)、查准率等。推荐系统希望用户被推荐的内容吸引,停留更久,有更持久的行动。你对用户兴趣挖掘的越深,推荐的成功率就越高。
推荐系统的评价面要更广,推荐结果的数量要更大,推荐的地点和场景要更复杂。MAP或CTR是Top N推荐常用的评价方法;RMSE或MAE是一种常用的分数预测定量方法。
4.马太效应和长尾理论
因为用户使用搜索引擎快速查找结果,所以大部分用户的点击都集中在排名靠前的结果上,而排名靠后的结果和翻页后的内容很少被关注。这就是著名的马太效应,即热门的物品得到更多的关注,冷门的物品得到更多的遗忘。
长尾理论是指冷门物品的品类远远高于热门物品的品类。在电子商务领域,如果这些长尾商品被充分挖掘,它们带来的价值可能会超过热门商品带来的价值。
推荐系统可以发现“被遗忘”的非热门项目,激活和利用长尾资源,吸引用户的注意力,挖掘用户的兴趣,为用户提供更多的选择。此外,依赖热门内容可能会导致潜在客户的流失。
作者简介:刘玉,清华大学硕士,现就职于一家跨境电商公司,担任技术总监,主要负责公司的搜索推荐业务以及广告的相关技术开发。目前工作的重点是落地算法在搜索系统、推荐系统、对话系统等具体业务场景中的应用。在机器学习、深度学习、大数据的应用与发展等方面做了大量研究。聊天机器人的合著者:初级,高级,实用。
赵红宇,毕业于东北大学;RIT毕业,AI专业。现在,我在Hunting.com工作,主要负责Hunting.com的相关推荐和整理工作。
刘树斌,东北大学本科毕业,现就职于美团,高级系统开发工程师。我曾经在唯品会工作,主要负责搜索工程的架构设计和实现,在Elasticsearch方面有丰富的工程实践经验。
孙明珠,硕士毕业于南京航空航天大学,现就职于猎网,担任高级算法工程师,负责NLP相关的查询、理解、分析、扩展等工作。
本文节选自《智能搜索与推荐系统:原理、算法与应用》,经出版社授权。
延伸阅读《智能搜索和推荐系统》阅读“智能搜索和推荐系统”
推荐:零基础掌握搜索推荐系统的原理、架构和算法。
重庆电费多少钱一度
