首页 > 操作系统 >

基于加权SlopeOne的协同过滤个性化推荐算法(2)

电脑杂谈　发布时间：2019-06-06 14:27:51　来源：网络整理

b)Slope One 没有考虑用户之间的相似性，导致与目标用户相似度较低的用户的评分数据混入计算过程，对推荐结果造成不必要的干扰。Slope One 算法这两方面的改善能够使其更贴近于实际生活，提高算法的推荐质量。因此本文在大量研究的基础上，提出这两个问题的解决方案。2．1 基于遗忘曲线的用户兴趣遗忘函数在实际生活中，用户的兴趣偏好并非是一成不变的，而是随着时间和环境的变动而发生漂移。当用户的兴趣发生改变时，如果还是按照用户以前的兴趣偏好产生推荐，推荐的项目势必不能使用户满意。因此，好的算法的推荐策略应该能够随着用户兴趣的改变而作出相应的变化。Slope One 算法在预测项目评分时，只是片面地针对用户的项目评分数据进行计算，并没有充分考虑用户兴趣变化的可能性，这是 Slope One 算法的一个巨大失误。本文借鉴了心理学上著名的艾宾浩斯遗忘曲线规律(又称做记忆的自然遗忘规律)，基于遗忘曲线构造用户兴趣遗忘函数来衡量项目评分数据随时间的变化，在一定程度上实现了对用户的兴趣变化的跟踪。2．1．1 艾宾浩斯遗忘曲线［11］德国著名的心理学家艾宾浩斯在大量实验的基础上发现了人类的自然遗忘规律:遗忘在记忆之后就立即开始，并且整个遗忘过程是不均匀的。

人们刚开始的记忆都属于短时记忆，容易产生遗忘，而且遗忘速度在最开始的阶段会非常快，然后随着时间的推移会逐渐变得缓慢，呈现出“先快后慢”的非线性递减变化，直到某个时间点遗忘会趋向于停止，剩余的记忆会成为长时记忆，可以在大脑中保留很长时间。艾宾浩斯将他的实验结果绘制成曲线，即著名的艾宾浩斯遗忘曲线，如图 4所示。艾宾浩斯遗忘曲线的数学函数公式［12］如下:b =100k(lg t)c+ k(6)其中:b 表示记忆的保存量(单位:%)，t 表示从记忆认知到当前时刻的时间间隔(单位:min)，c 和 k 是两个控制常量。艾宾浩斯通过实验反复论证发现，当 c = 1． 25、k = 1． 84 时，该遗忘函数与人们正常的遗忘规律最为近似。2．1．2 用户兴趣遗忘函数受到艾宾浩斯遗忘曲线的启发，发现用户的兴趣变化非常符合人的记忆自然遗忘规律。当有新的兴趣项产生时，用户会抱有浓厚的兴趣，而随着时间的不断推移，该兴趣项会逐渐被用户遗忘，体现为用户对它的兴趣度逐渐降低，它对用户兴趣的影响程度相应减小，这种改变最终将趋于一个稳定值。只有当用户重新关注该兴趣项时，其兴趣度才会升高。

在 Slope One 算法中，用户对某个项目的兴趣偏好程度是以用户对该项目的评分来衡量的。用户兴趣偏好的变化即是用户的项目评分数据的变化。因此可以借鉴艾宾浩斯遗忘曲线规律来构造基于评分的用户兴趣遗忘函数，用于实时计算当前时刻用户对项目的剩余兴趣度，即剩余评分。用户兴趣遗忘函数公式如下:r' i，j = r i，j ×1． 84(lg t)1． 25+1．84(7)其中:r i，j 表示用户 i 对项目 j 的评分，r' i，j 表示随时间衰减后的用户 i 对项目 j 的剩余评分，t 表示当前时间与用户评分时间之间的差值(单位:min)。当 r' i，j 低于 r i，j 的 20% 时将趋于稳定，因此将其设为固定值不再进行计算。2．2 基于聚类的用户最近邻筛选策略不同的用户拥有不同的兴趣偏好，体现在项目上就是评分高低的差异。Slope One 没有考虑到用户之间的相似性，计算项目 j 对项目 i 的评分偏差时，只要是对项目 i 有过评分的所有用户都会被划入它的计算范围内。在这个用户集合中，可能存在某些用户与当前用户兴趣爱好迥异。相比较而言，与当前用户具有相同兴趣偏好的用户的参考价值更大一些，相似度较低用户的混入会对最终的推荐结果造成不必要的干扰。

slope one 算法是基于什么的_slope one 聚类_基于fpga的fft算法

依据用户的相似性来筛选参与计算的用户集合可以有效缓解上述问题［13］。首先挑选与目标用户相似度较高的 N 个用户构成最近邻集合，然后在该近邻集合上计算项目间的评分差。这样做有两方面好处:a)可以提高邻居用户在评分平均差计算中的贡献度，降低相似度较低用户的干扰，使预测结果可信度更高;b)能够大幅缩小用户范围，减少参与计算的评分数据量，使算法执行效率更高。· 6 6 2 2 · 计算机应用研究第 34 卷2．2．1 用户最近邻查找方法对比要搜索用户的最近邻集合，最常用的方式就是 user-based协同过滤算法。User-based 协同过滤算法通过用户评分数据计算某一用户与其他用户之间的相似程度，选取最大的 top-N组成用户的近邻集合。但是它的缺陷就在于它对目标用户最近邻居的搜索是在整个用户空间上进行的，随着访问量和数据量的增大，算法的计算量和耗费时间将呈线性增大，不利于系统的实时响应［14］。为此，本文采用了基于聚类的用户最近邻查找方法。由聚类的性质可知，具有相同兴趣偏好的用户可以分为一类，而目标用户的最近邻居很大程度上是从它所属聚类中产生的［15］。

该方法不需要搜索整个用户空间，而是将空间范围缩小，先定位到用户所属聚类，再从聚类集合中筛选出用户最近邻居，可以极大地提高用户最近邻的查找效率。2．2．2 基于聚类的用户最近邻筛选策略这里采用传统的 K-means 聚类算法，依据用户的项目评分数据对用户空间进行划分。基于聚类的用户最近邻筛选策略的流程如图 5 所示。a)提取用户对项目的评分数据构造用户—项目评分矩阵Ｒ m × n 。b)从用户集合 U 中选取评分数最多的 K 个用户，将其评分向量Ｒ u 作为初始聚类中心，记为{W 1 ，W 2 ，…slope one 算法是基于什么的，W k }，对应的聚类簇分别为{C 1 ，C 2 ，…，C k }。c)对用户集合 U 中的每一个用户 u，依次计算 u 与用户聚类中心 W j (j =1，2，…，k)的相似度，将 u 分配给最近的聚类 C j(j =1，2，…，k)。d)使用式(8)更新聚类中心，其中，Ｒ u 代表用户 u 的评分向量，card(C j )代表聚类 C j (j =1，2，…，k)中的元素个数。W newj= ∑ U i∈C j Ｒ u /card(C j )(8)e)重复执行步骤 c)和 d)，直到误差达到一定阈值或者聚类的成员不再改变为止，得到划分好的 K 个用户聚类。

f)在筛选用户最近邻集合之前先确定当前用户所属聚类。g)分别计算当前用户与聚类集合的其他用户的相似程度。h)选取相似度最大的 N 个用户组成当前用户的最近邻集合。2．3 改进的 weighted Slope One 算法本文在上面的内容中阐述了针对 Slope One 算法面临的两个主要问题的解决方案。采用基于遗忘曲线的用户兴趣遗忘函数来跟踪用户兴趣变化，利用基于聚类的用户最近邻筛选策略来引入用户相似性。这里将上述方法整合到 weighted SlopeOne 算法上，实现基于用户兴趣遗忘函数和用户最近邻筛选策略的改进 weighted Slope One 算法。为了提高算法的实时性能，改进算法的处理流程分成离线处理和推荐两个阶段，如图 6 所示。离线处理阶段负责完成用户数据的预处理工作，使用用户兴趣遗忘函数实时处理用户评分数据的计算量较大，因此将其放在离线处理阶段周期性执行，实现用户兴趣变化的准实时跟踪;用户聚类所需计算时间很长，严重影响了算法的推荐速度，考虑到用户相似性具有一定程度的稳定性，也将其划入离线处理阶段。推荐阶段负责为用户产生实时推荐，首先根据离线处理结果在用户所属聚类集合中筛选出其最近邻居集合，然后在该集合上使用 weighted Slope One 算法为用户产生个性化推荐。

1 2 3 4 5 …… ap mm讨论分析实验三加工误差统计分析实验报告实验名称实验日期班级姓名同组人一﹑实验目的二﹑实验仪器设备三﹑实验原理四﹑实验数据记录与处理1. 实验原始数据表一测量数据表序号尺寸序号尺寸序号尺寸序号尺寸 1 21 2 22 3 23 4 24 5 25 6 26 7 27 8 28 9 29 10 30 11 31 12 32 13 33 14 34 15 35 16 36 17 37 18 38 19 39 20 402. 绘制实际分布图（1）剔除异常数据若，认为为异常数据，应剔除。为了验证其性能，与近年来的经典统计类算法进行对比实验，这几种经典算法包括 grey-world 算法 [7] 、 white-patch 算法 [8] 、 grey-edge 算法 [9] 。在mpeg4的编码质量对比实验中，推荐算法比标准算法提高了2 db以上，从而表明推荐算法能有效地提高运动残差的编码效率。

基于fpga的fft算法_slope one 算法是基于什么的_slope one 聚类

它需要将数据集分成训练· 7 6 2 2 · 第 8 期李桃迎，等:基于加权 Slope One 的协同过滤个性化推荐算法集和测试集两部分，算法在训练集上工作，对测试集进行预测。MAE 的计算公式如下:MAE =∑ Ni =1p i － q iN(9)其中:p i 表示项目 i 的预测评分，q i表示项目 i 的实际评分，N表示测试集中预测的用户—项目评分对个数。MAE 的值越小，算法的推荐质量越高。b)Time(时间)。算法产生预测的平均时间也是衡量算法性能的一个重要标准。一个算法能否让用户满意，一是看算法的推荐质量，二是看算法的运行效率。算法产生推荐的速度越快，用户体验满意度越高。3．3 实验设计及结果分析本实验的目的是验证本文提出的 weighted Slope One 改进算法的准确性和实时性。为了保证实验结果的可靠性，将MovieLens 数据集的评分数据按用户随机划分为五个子集，将每个数据子集中的用户评价记录按照时间先后顺序进行排序，选取前 80%作为训练集，剩余的 20% 作为测试集。将训练集当做用户对项目的历史评分数据，使用各推荐算法对测试集中的项目评分进行预测，取平均值作为最终的实验结果。

在实验开始之前需要确定用户或项目相似度计算方法，因为相似度计算方法对算法准确性的影响不大，这里均采用Pearson 相关相似度来计算用户或项目之间的相似度。同时还需要确定用户聚类簇数 K，对其没有太苛刻的要求，因为用户聚类的最终目的是提高用户最近邻居的查找效率，而且对MovieLens 数据集预处理发现，K =7 时用户在各聚类的数据分布比较均匀，因此选取 K =7 进行实验。实验 1 用于验证改进 weighted Slope One 算法的推荐精度。以 MAE 作为评价指标，取用户或项目的最近邻居数量为10 ～100，并按 10 递增，将改进算法与传统协同过滤算法进行了对比分析，实验结果如图 8 所示。从图 8 可以看出随着近邻用户的增加，改进 weightedSlope One 算法的 MAE 值呈下降趋势，意味着其推荐精度在逐渐提高。并且改进算法的 MAE 值整体低于 user-based 和 item-based 协同过滤算法，当最近邻居数量增加至 30 时，其 MAE 值小于传统的 weighted Slope One 算法，当最近邻居数量接近 70时，其 MAE 值逐渐趋于稳定。

应用过滤器的关键特点是提供给用户一种工具，让用户通过易于理解的属性语言去多维度的过滤和筛选应用，经过筛选过滤后得到的所有应用形成一个应用集，用户可以对此应用集针对性的进行统一的访问控制或安全管理。辅助选号功能：对用户选定的候选号码进行组合分解，并根据用户设置的筛选条件对不符合条件的投注进行筛选过滤，去除获奖概率低的投注，以让用户以最低的投资获得最可能大的收益。7.过滤（filtering），获取到集合中的第一个元素：collection.{^expression}8.过滤（filtering），获取到集合中的最后一个元素：collection.{&expression}9.在使用过滤操作时，我们通常都会使用#this，该表达式用于代表当前正在迭代的集合中的对象（联想增强的for循环）10.投影（projection）：collection.{expression}11.过滤与投影之间的差别：类比于中的表，过滤是取行的操作，而投影是取列的操作。

参考文献:［1］许海玲，吴潇，李晓东，等．互联网推荐系统比较研究［J］．软件学报，2009，20(2):350-362．［2］刘建国，周涛，汪秉宏．个性化推荐系统的研究进展［J］．自然科学进展，2009，19(1):1-15．［3］丁少衡，姬东鸿，王路路．基于用户属性和评分的协同过滤推荐算法［J］．计算机工程与设计，2015，36(2):487-491，497．［4］王兴茂，张兴明．基于贡献因子的协同过滤推荐算法［J］．计算机应用研究，2015，32(12):3551-3554．［5］王国霞．基于用户引力的协同过滤推荐算法［J］．计算机应用研究，2016，33(11):3329-3333．［6］王国霞，刘贺平．个性化推荐系统综述［J］．计算机工程与应用，2012，48(7):66-76．［7］黄正．协同过滤推荐算法综述［J］．价值工程，2012，31(21):226-228．［8］ Su Xiaoyuan，Khoshgoftaar T M． A survey of collaborative filteringtechniques［J］． Advances in Artificial Intelligence，2009，2009(1):1-19．［9］陈洁，潘郁，张振海，等．基于用户实时行为的 Slope One 模型与算法［J］．运筹与管理，2015，24(1):89-92．［10］Lemire D，Maclachlan A． Slope one predictors for online rating basedcollaborative filtering［C］/ /SIAM Data Mining． 2005:21-23．［11］赵强利，蒋艳凰，卢宇彤．具有回忆和遗忘机制的数据流挖掘模型与算法［J］．软件学报，2015，26(10):2567-2580．［12］江志恒，刘乃芩．论遗忘函数———关于记忆心理学的数学讨论［J］．心理学动态，1988(3):56-60．［13］查文琴，梁昌勇，曹镭．基于用户聚类的协同过滤推荐方法［J］．计算机技术与发展，2009，19(6):69-71，75．［14］王辉，高利军，王听忠．个性化服务中基于用户聚类的协同过滤推荐［J］．计算机应用，2007，27(5):1225-1227．［15］霍珊．基于用户行为聚类的个性化推荐算法［J］．硅谷，2009(22):74．［16］http:/ /grouplens． org/datasets/movielens/［DB/OL］．· 8 6 2 2 · 计算机应用研究第 34 卷

本文来自电脑杂谈，转载请注明本文网址：
http://www.pc-fly.com/a/jisuanjixue/article-104101-2.html

相关阅读

发表评论　　请自觉遵守互联网相关的政策法规，严禁发布、暴力、反动的言论

任士鹏

没钱的不是就要自宫

2026年03月26日回复顶转发
石川英郎

加油加油加油加油加油加油

2026年03月26日回复顶转发
王方涛

俺们那厂子就垮掉了呀

2026年03月26日回复顶转发

每日福利

热点图片

热点排行