程序代写代做代考 information retrieval Java hadoop data mining 第 3 章 关于推荐系统冷启动问题的研究
第 3 章 关于推荐系统冷启动问题的研究 推荐系统需要根据用户的历史行为和兴趣预测其未来的行为和兴趣,尤其是 协同过滤推荐算法,需要从用户历史行为数据出发,建立起用户和项目的特征矩 阵从而进行推荐。如何在缺失大量评分数据的情况下设计推荐系统,并使用户对 推荐结果满意,从而愿意使用该系统,就是冷启动问题12。 本章研究了协同过滤算法中的冷启动问题,并提出一种基于项目分类和空缺 值填充的协同过滤改进算法,并应用 MovieLens 数据集,在 Spark 平台完成了该 算法的并行化实现。 3.1 冷启动问题的提出 目前,协同过滤是应用最广泛、最成功的推荐算法。基于矩阵分解的协同过 滤算法可以解决评分矩阵稀疏性的问题,但是当一个新用户没有在评分矩阵中对 任何一个项目进行过评分,则无法应用协同过滤算法对该用户进行推荐,或一个 新项目没有被任何用户评分,则该项目无法被推荐给其他用户,这就是协同过滤 算法的冷启动问题34。 冷启动问题主要分为三类: • 用户冷启动 用户冷启动问题是指如何给没有对任何一个项目进行过评分的新用户进行 推荐的问题。新用户没有历史行为数据,也就无法根据其历史行为预测行为和兴 趣。 • 项目冷启动 项目冷启动问题是指如何将一个没有被任何用户评分过的项目推荐给其他 用户的问题。 • 系统冷启动 系统冷启动问题主要解决的是如何在一个新开发的网站或平台(还没有用户, 也没有用户行为信息,只有一些物品信息)上进行个性化推荐系统的搭建。 冷启动问题是协同过滤算法中被广泛关注的一个重点问题,它的存在严重影 响着传统的协同过滤推荐系统的推荐结果。目前针对冷启动问题,提出了一些解 决方法,主要分为两大类5:一类是利用利用已有的评分数据、不考虑内容信息的 方法,另一类是结合新用户或新项目的内容属性信息的方法。不考虑内容信息的 常见方法有随机推荐法、平均值法、众数法、信息熵法等。最简单最直观的随机 推荐法的准确率不高,主要依靠用户反馈修正用户对项目的偏好信息,冒险度较 高,容易令用户失去对平台的信任。平均值法6选用所有项目的均值来填充未评 价项目的预测值,填充原始评分矩阵再应用协同过滤方法进行推荐,但实际上新 用户对项目的喜好程度等于其他用户对此项目的评分均值的可能性非常小,而且 均值法抹杀了个人的兴趣爱好会上下波动的个体差异性。众数法7采用所有用户 对所有项目的评分中最多出现的评分值作为未评分项目的预测值,从统计学角度 来说,预测准确的概率会高于不准确的概率,但是如果被预测项目是用户喜欢的, 而评价过该项目的用户大多数人都打了 1 分,那么这 1 分的预测值就不仅是不准 确,而是错误的预测。香农用信息熵来描述信源的不确定度,信息熵法则是通过 信息熵增益选择分类属性,实质上也是一种均值预测法,只不过不是用所有项目 […]
程序代写代做代考 information retrieval Java hadoop data mining 第 3 章 关于推荐系统冷启动问题的研究 Read More »