基于深度学习的兴趣点推荐系统思考范文

论文价格:150元/篇 论文用途:硕士毕业论文 Master Thesis 编辑:硕博论文网 点击次数:
论文字数:32144 论文编号:sb2021051111195335466 日期:2021-05-25 来源:硕博论文网
本课题针对签到数据的序列性和稀疏性,结合 LSTM、注意力机制、生成对抗网络等技术,提出了一个基于生成对抗网络的兴趣点推荐系统。该推荐系统利用用户之前的签到和位置来生成用户偏好的注意力,从而修正用户的当前偏好。此外,利用对抗学习来进一步提升推荐性能。通过与现有的兴趣点推荐方法在两个公开的兴趣点推荐数据集上的实验对比,验证了该方法的有效性。

第一章 绪论

1.1研究背景和意义
面对日新月异的互联网技术及其应用,用户的信息负担也日益加重。推荐系统可以通过挖掘用户偏好来帮助用户筛选信息,因此被认为是解决此类问题的有效方法[1]。随着 Facebook、LinkedIn、Twitter、Instgram、微博、微信等基于 web2.0 技术的社交网络飞速发展,互联网已不仅仅是人们创造和获取信息的媒介,更是人与人之间交流互动的平台。此外,随着移动设备和 GPS 的发展,Foursquare 和 Gowalla 等基于位置信息的社交网络(Location-based SocialNetwork,LBSNs)吸引了越来越多的关注。与传统的社交网络不同,LBSNs 除了传统社交网络中人与人的联系外(如文字和聊天信息),还可以跟踪和共享用户的位置信息。由于 LBSNs的发展,用户在分享自己的签到信息(Check-in)的同时,也产生了平台为其推荐其他感兴趣地点的需求。近年来,针对 LBSNs 数据所提出的兴趣点(Point of Interest,POI)推荐取得了相当多的研究成果[2-3]。
然而,传统推荐方法(例如协同过滤、基于内容的推荐等)无法对用户和物品(User-Item)的深层次特征进行学习,且会遭遇到严重的数据稀疏和冷启动问题[4]。近年来,深度学习在很多领域(例如图像处理、自然语言处理和语音识别等)取得了良好的成果,这也给推荐系统的进一步发展带来的可能[5]。深度学习模型的结构一般是深层次的、非线性的。对于传统推荐方法无法处理的多源异构的数据,深度学习模型可以自动地学习到其中的特征,从而将原本多源异构的数据映射到相同的隐空间,来统一地表征这些数据[6]。基于深度学习技术来构建推荐算法,可以有效地处理和表征多源异构数据,引入更多维度的数据,从而缓解数据稀疏和冷启动问题。因此,基于深度学习的推荐方法也成为了一个新的研究方向。
........................

1.2国内外研究现状
1.2.1 推荐系统相关研究与应用为了理解和分析推荐系统的相关研究和应用,本节将对几类较为成熟的推荐算法进行介绍,并分析这些推荐算法相关的国内外研究现状。
(1)基于内容的推荐系统
基于内容的推荐系统可以给用户推荐与其之前喜欢的商品相似的商品。基于内容的推荐系统的基本原理是:a)分析特定用户所偏好的所有物品的描述,以此来总结出这个用户所偏好的物品的普遍属性(用户偏好)。分析出每个用户的用户偏好后,将其存储在用户档案中。b)给定一个需要提供推荐服务的用户,将所有物品的属性与该用户档案中保存的用户偏好进行对比,将与用户偏好相似度较高的物品推荐给该用户[7]。
在基于内容的推荐系统中,一般通过两种方式来产生推荐结果。一种方式是使用传统的信息检索方法(例如余弦相似度度量),来启发式地生成推荐结果;另一种是通过统计学习和机器学习的方法,构建能够从用户的历史数据(训练数据)中学习用户偏好的模型,从而生成推荐结果。
(2)基于协同过滤的推荐系统
给定待推荐用户,基于协同过滤的推荐系统通过分析其他与之兴趣相似的用户的数据,从而给该用户提供推荐结果[8]。基于协同过滤的推荐系统可以分为基于用户的协同过滤(User-CF)和基于物品的协同过滤(Item-CF)两大类[9]。基于用户的协同过滤算法会提取与目标用户兴趣相似的其他用户在过去喜欢过的物品,然后将这些物品推荐给用户。基于物品的协同过滤算法则推荐给用户与其过去喜欢过的物品相似的其他物品。用户间或物品间的相似度的度量方法有基于皮尔森系数的相关性,基于约束皮尔森系数的相关性,基于余弦相似度的相关性以及基于调整余弦相似度算法。采用这些方法计算两个物品间相似度时,只考虑那些同时对这两个物品有过打分的用户。然而这种做法会让评分数较少的物品与其他物品的相似度较高,从而影响了相似度计算的准确性。为了提高相似度计算的准确性,提出了一种改进的基于物品的协同过滤算法。这种算法将调整余弦相似度与 Jaccard 距离相结合作为一种加权方案。在计算用户间相似度时,Jaccard 度量被用作基于约束皮尔森系数的加权方法[10]。为了解决协同过滤算法中单一评分的缺点,又提出了基于多种准则的协同过滤算法[11]。
............................

第二章 相关背景知识介绍

2.1兴趣点推荐问题
2.1.1  问题特性
虽然推荐系统已经被广泛研究并且被成功应用于在很多电商网站(例如 Amazon、Netflix、淘宝等),但是兴趣点推荐系统近些年才开始兴起。不同于传统的推荐系统,兴趣点推荐系统具有以下几个特性。
(1)地理位置信息影响
正如 Tobler 的地理学第一准则所述“万物皆有关联,但是距离相近的物品间的关联性要大于距离较远的物体间的关联性”[89]。在基于地理位置信息的社交网络中,Tobler 的准则同样适用。相比于距离较远的地点,用户更倾向于访问距离较近的地点。用户也更可能对一个自己喜欢的地点周围的地点感兴趣。在兴趣点推荐问题中,地理位置信息的影响极大地影响着用户的签到行为。因此,地理位置信息的影响是区分兴趣点推荐和传统推荐系统的最关键的特性。
(2)频率数据和数据稀疏性
在传统的推荐系统中,用户通常会用给物品(例如图书、影片、音乐等)打分的方式来显式地表达自己的偏好。因此,用户的偏好可以转化为一个用户-物品的评分矩阵。这些用户评分通常都是一个在一定范围内的数值(例如给一本书在[1,5]的范围内打分)。用户评分越高的物品往往可以带来更高的用户满意度。不同于传统的推荐系统,在兴趣点推荐系统中,由于用户在访问一些地点之后并不会显式地给出评分,所以只能依靠隐式反馈来收集用户偏好数据。其中,用户的 check-in 数据是比较容易收集的。一方面用户可能会上传一些自己的签到数据(例如打卡、评论等),另一方面提供兴趣点推荐的应用也可以在后台收集用户的位置进行反馈。由于缺少显式的评分,兴趣点推荐系统中用户的偏好是通过该用户访问兴趣点的频率来表现的。因此,兴趣点推荐系统中的用户偏好可以被表示为一个用户-地点的访问频率矩阵。相比于评分数据,频率数据的数值范围要更大。例如,一个用户可能会在特定的一些地点有过上千次的签到,却在其他地点只有几次的签到记录。此外,用户-地点的访问频率矩阵的稀疏性要远远高于用户-物品的评分矩阵。这种数据的稀疏性给兴趣点推荐带来极大的挑战。例如,Netflix数据集的稀疏性在99%左右,然而Gowalla数据集的稀疏性大约为2.08 × 10 4[87]。
表 3.1 签到数据相关信息
表 3.1 签到数据相关信息
................................

2.2推荐系统评估
不论是对推荐算法进行科学研究,还是去开发一个实际的推荐系统,都需要根据当前的应用场景来选择合适的方法。现实中的推荐系统通常由用户、物品和提供推荐服务的平台三方组成。因此在评估一个推荐算法时,需要同时考虑三方的利益,从多个角度去考量当前的推荐算法。此外,除了常见的准确率、召回率这些指标外,还要考虑推荐系统其它方面的性能,例如推荐的覆盖率、多样性等。在设计一个实际的推荐系统时,还需要考虑该推荐系统的鲁棒性、可扩展性、是否可以处理冷启动问题。本节将系统地介绍如何推荐系统常用的实验方法和评估指标。
2.2.1 推荐系统实验方法
在本节中,将系统地介绍三种评估推荐效果的实验方法,即离线实验、用户调查和在线实验。
(1)离线实验离线实验通过事先收集整理的用户数据来对推荐系统进行仿真实验。
离线实验方法一般由以下几个步骤构成:
(a)记录用户的浏览、搜索、购买等相关行为,将这些数据整理成一个标准格式的数据集。
(b)通过一定的标准,例如按时间划分、按用户划分、按比例随机划分等方式,将数据集分割成训练集和测试集。
(c)利用训练集中的数据来训练推荐模型,训练完成后,用模型对测试集中的数据进行预测。
(d)对模型给出的预测,通过一些预定义的指标,如准确率、召回率等来评估模型的性能。
图 3.1 网络框架图
图 3.1 网络框架图
.....................

第三章 基于注意力机制的深度学习兴趣点推荐框架.................... 20
3.1引言.................................... 20
3.2注意力机制的相关研究与应用 ....................... 21
第四章 基于生成对抗网络的兴趣点推荐系统 ..................... 32
4.1引言............................... 32
4.2生成对抗网络相关研究与应用 ............................. 33
第五章 总结与展望................................... 44
5.1工作总结............................. 44
5.2工作展望........................... 44

第四章 基于生成对抗网络的兴趣点推荐系统

4.1引言
在兴趣点推荐系统中,一个用户的签到历史可以看作是一个由签到记录组成的序列。在这个签到记录序列中,用户签到兴趣点的转变是具有序列性的。例如,一个用户当前在一家饭店吃饭,如果其之前访问了休闲场所(如购物中心),则其更有可能是在休假状态,因此接下来可能会访问一些娱乐相关的地点(如电影院、KTV 等),而如果其之前访问的是一个办公地点,则其接下来可能会回到该办公地点。同样是在饭店吃饭的情况下,由于签到记录序列情况的不同,用户当前的行为倾向也会不同。换句话说,用户的当前偏好是随着用户签到记录序列在不断转变。LSTM[83]能够更加有效地建模长程依赖关系,在处理序列数据上有着很大的优势。因此,可以采用 LSTM 来学习用户签到记录的序列性,从而更好地捕捉用户当前偏好的转变。
在兴趣点推荐系统中,数据稀疏性是普遍存在的一个问题。大多数的兴趣点的签到数都较少。大量的签到记录集中在了比较少的流行度较高的兴趣点上。这种签到数据的稀疏性会使得一些冷门兴趣点的特性难以被挖掘,模型的训练容易过拟合,从而影响推荐的效果。此外,兴趣点推荐问题中数据往往是正负样本失衡的分布,因为通常只会采集到用户在的签到数据,而这些签到数据只能反映用户对这些兴趣点感兴趣(即正样本)。用户对哪些兴趣点不感兴趣,即负样本,这部分数据并无法显式地收集到。近年来,生成对抗网络这一深度学习技术由于其可以主动生成假样本从而提升模型训练效果的特性,被广泛应用于各种领域[105]。对于推荐系统中的数据稀疏性问题,同样可以用生成对抗网络来缓解。生成对抗网络中的生成器可以主动生成假样本,从而可以缓解了因训练数据的稀疏性和不平衡造成的过拟合。因此,可以利用生成对抗网络来构建兴趣点推荐模型,改进推荐的性能。
.............................

第五章 总结与展望

5.1工作总结
随着移动设备和 GPS 的发展,Foursquare 和 Gowalla 等基于位置信息的社交网络(LBSNs)吸引了越来越多的关注,由此衍生出的兴趣点推荐系统也成为了推荐系统领域的重要发展方向。本课题结合深度学习技术,对兴趣点推荐系统进行了研究探索,并取得了一定的研究成果。
本课题首先为了解决根据用户近期签到记录来进行兴趣点推荐的问题,提出了一种基于注意力机制的深度学习兴趣点推荐框架。该框架分为两个部分。首先,利用一种基于上下文信息的用户和兴趣点的隐表示方法,通过对用户签到记录进行序列化建模来产生用户和兴趣点的隐表示向量。在此基础上,为了能够更好地利用兴趣点的地理位置和类别特征来强化训练效果,提出了一种基于地理距离和兴趣点类别的负采样方法。在产生了用户和兴趣点的隐表示向量之后,提出了一种基于注意力机制的卷积网络,利用用户的近期签到和用户的隐表示作为输入,给用户产生即时的推荐结果。通过与其他的现有的兴趣点推荐方法在兴趣点推荐数据集上的实验结果,验证了该方法的有效性。
本课题针对签到数据的序列性和稀疏性,结合 LSTM、注意力机制、生成对抗网络等技术,提出了一个基于生成对抗网络的兴趣点推荐系统。该推荐系统利用用户之前的签到和位置来生成用户偏好的注意力,从而修正用户的当前偏好。此外,利用对抗学习来进一步提升推荐性能。通过与现有的兴趣点推荐方法在两个公开的兴趣点推荐数据集上的实验对比,验证了该方法的有效性。
参考文献(略)

如果您有论文相关需求,可以通过下面的方式联系我们
点击联系客服
QQ 1429724474 电话 18964107217