基于语义环境感知的虚假信息检测方法思考

论文价格:150元/篇 论文用途:硕士毕业论文 Master Thesis 编辑:硕博论文网 点击次数:
论文字数:32025 论文编号:sb2024121814342652964 日期:2024-12-26 来源:硕博论文网

本文是一篇软件工程论文,本文得出新闻语义环境特征具有强大的能力可以有效判断新闻的真实性。因此,提出了两种方法实现假新闻的早期高效检测。
第一章绪论
1.1研究背景及意义
近年来,随着社交媒体的快速发展和互联网信息的爆炸式增长,导致在网络上的传播的虚假信息和谣言日益泛滥。这不仅给公众带来困惑和误导,还可能对社会稳定和个人权益造成严重危害[1,2]。因此,开展虚假新闻检测的研究任务变得尤为迫切[3-8]。首先,社交媒体平台的普及和使用率不断攀升,成为了新闻和信息获取的主要渠道之一。然而,与传统媒体相比,社交媒体上的信息发布更加便捷和自由,缺乏严格的审查和监管机制,这为虚假新闻的滋生和传播提供了广阔的舞台。其次,虚假新闻检测任务面临着技术挑战。虚假新闻往往伪装成真实信息,使用语义模糊、情感煽动等手段迷惑读者。同时,虚假新闻的传播速度极快,要及时发现和辟谣是一项巨大的挑战。因此,开展虚假新闻检测任务的研究对于识别虚假信息、保护公众免受虚假新闻的影响具有重要意义。通过使用自然语言处理和深度学习等技术,可以开发出高效准确的虚假新闻检测模型,帮助公众更好地辨别真实信息与虚假信息,维护网络空间的秩序和安全稳定[9-13]。这将为社会提供一个更加可信可靠的信息环境,促进公众意识的提高和信息消费的合理化。因此,虚假新闻检测的研究意义重大,不仅有助于维护社会秩序和公共安全,还有助于提升公众信息素养和推动人工智能技术的发展。通过持续深入地开展虚假新闻检测研究,进而能够建设一个更加清朗和可信的网络信息环境,为社会进步和发展提供坚实的基础。
..........................
1.2国内外研究现状
面对网络技术的不断发展,人们获取信息的渠道愈加广泛,与此同时,假新闻泛滥也成为一个棘手的问题。为此,虚假新闻检测任务致力于从社交媒体平台中提取各种可为模型所用的外部环境特征,从而帮助实现真假新闻的二分类[14]。因此,虚假新闻检测方法被分为以下两类:(1)基于新闻内容特征的方法,(2)基于外部环境特征的方法。
1.2.1基于新闻内容特征的检测方法
自虚假新闻被广泛关注以来,研究方法主要围绕新闻内容即文本特征、图像特征、多模态特征等展开。Horne等人[15]发现假新闻标题使用停止词和名词较少,使用专有名词和动词短语较多,从而以此为依据区分真新闻和假新闻。由于社交媒体中使用的语言是高度非正式的、不合语法的和动态的,因此不能直接应用传统的自然语言处理技术。其次,总是有一种或几种类型的手工制作的特征不可用、不充分或被操纵。因此研究方法从最开始使用手工特征如词性百分比、符号数量、语言风格的方法逐渐过渡到深度学习方法。因深度学习技术具有强大的表示学习能力,许多广为人知的方法走进大众的视野。Ma等人[16]进行了一项开创性的工作,将深度学习应用于虚假信息的检测。它将社交上下文信息建模为可变长度的时间序列,并使用RNN来了解微博帖子的社交上下文特征如何随着时间的推移而变化。Yu等人[17]使用CNN提取文本特征,并将嵌入的向量输入到上下文感知的分类器中。这种方法能够灵活地提取分散在整个输入序列中的关键特征,并促进重要特征之间的高级交互。还有一部分研究人员[11,18-20]通过提取写作风格和情感特征来揭穿可能的假新闻。ESODE[21]被提出用于社交媒体上的谣言检测,将实体识别、句子重构和常微分方程网络相结合,增强语义理解,提高词频,从而建立综合特征图,并利用ODEnet[22]进行谣言检测。在信息暴涨的时代,大量的数据以图文形式出现[23],社交媒体上的新闻也不例外,捕捉多模态新闻内容特征的虚假新闻检测方法也如雨后春笋般地应运而生。错误地发布不相关的图像是编造多模式假新闻的典型方式,因此一些工作侧重于测量多模态信息之间的一致性以进行检测。
......................
第二章相关理论基础知识
2.1虚假新闻的定义
在线社交媒体平台在不同年龄段的受众中越来越受欢迎,这些平台正在侵蚀传统新闻行业的权威性。在社交媒体上,人们通过留言来讨论和表达他们对新闻的看法。最近,社交媒体上的许多新闻被发现具有误导性。因此“虚假新闻”一词用于描述此类恶意新闻。2016年美国总统大选受到了社交媒体假新闻的影响。在选举之后,这个短语已经成为一个常见的术语,几乎每天都会被提及。出于多种原因,假新闻识别是一项技术挑战。新闻内容很容易通过社交媒体平台生成和传播,从而产生大量的数据需要评估。大量的在线材料涵盖了许多主题,增加了任务的难度。这促使研究人员致力于自动检测假新闻。为了检测假新闻,许多研究人员提出了一系列机器学习和深度学习方法。
此外,检测假新闻最具挑战性的方面是定义假新闻,根据维基百科的说法,“假新闻被定义为以新闻形式呈现的虚假或误导性信息,其目的往往是损害个人或实体的声誉或从广告收入中获利”。虚假新闻作为一种日益影响全球的问题,虚假新闻检测任务旨在从用户的社交媒体信息中识别和检测虚假新闻。虚假新闻通常会模仿可信的新闻以获得可信度,这种伪造的内容通过模仿可信内容获得其价值。“虚假新闻故事是一个声称描述现实世界中的事件的故事,通常通过模仿传统媒体报道的惯例,然而其创造者知道它是显著虚假的,并且其传播有两个目标:被广泛转载和至少欺骗一部分观众”。目前的主流方法通常将虚假新闻检测任务视为二元分类问题。将带有辅助信息的新闻文本内容�组成的新闻集合正确分类到其对应的新闻真实性标签。因此虚假新闻检测的主要目的就是根据新闻Ni(Ci,Ai),其中C表示新闻内容特征,A表示其它辅助特征,判断出Ni是真实新闻(yi=0)或是虚假新闻(yi=1)的概率。
............................
2.2注意力机制
注意力机制是一种在计算机科学和机器学习中常用的技术,可以使模型在处理序列数据时更加准确和有效。在传统的神经网络中,每个神经元的输出只依赖于前一层的所有神经元的输出,而在注意力机制中,每个神经元的输出不仅仅取决于前一层的所有神经元的输出,如图2-1所示,还可以根据输入数据的不同部分进行加权,即对不同部分赋予不同的权重。这样可以使模型更加关注输入序列中的关键信息,从而提高模型的精度和效率。

软件工程论文怎么写
软件工程论文怎么写

如图2-2所示的自注意力机制的核心理念在于处理序列数据的过程中,赋予每个数据点与序列句子内其他点相互作用的能力,而非仅限于与邻近数据点的交互。通过评估数据点间的相互作用强度,进而动态地捕捉它们之间的远程依赖性。具体来说,自注意力机制会为序列数据里的每一个数据点评估其与序列中其他点的相互作用程度,并将这些相互作用程度转换为归一化的注意力权重。通过这种方式,每个数据点都会根据其与其他点的相互作用强度进行加权汇总,形成自注意力机制的最终输出。
............................
第三章基于新闻语义环境感知的虚假新闻检测框架........................16
3.1引言..............................16
3.2方法架构...................................18
3.3新闻语义环境感知建模.....................19
第四章基于挖掘新闻-双重外部环境不一致性的虚假新闻检测.....................34
4.1引言.............................34
4.2方法框架.............................35
4.3新闻-双重外部环境不一致性建模.........................36
第五章总结与展望.............................48
5.1全文总结..................................48
5.2未来展望................................48
第四章基于挖掘新闻-双重外部环境不一致性的虚假新闻检测
4.1引言
在互联网时代,特别是在社交媒体和移动终端崛起之后,传统媒体逐步地被新媒体取代。进而导致海量的内容从以前的一次性传播变成了N次传播,使得内容质量也难以把控[46,47]。所以从丰富的社交媒体数据中检测虚假新闻的任务变得日益严峻起来,该任务旨在对网络空间中的虚假新闻进行识别和分类。目前研究人员一直致力于开发自动检测方法,通过利用新闻内容或外部环境特征中的信号设计分类器来判断给定的新闻是真是假,但这些方法都集中于挖掘面向数据的内容特征和假新闻的传播模式两个方面。所谓识别新闻内容特征,主要指的是对推文本身等信息做语义提取、情感分析,进而得到可验证特征。所谓验证新闻的传播模式,主要是通过计算新闻在社交平台上的传播情况,识别异常点,从而达到分类真假新闻的目的。尽管当前有各种巧妙的算法用来挖掘判定新闻真假的特征模式,但因为方法的局限性,即可被利用的信息量太少和难以早期检测假新闻,使得性能很难得到大的提升。对此,基于新闻和双重外部环境之间存在距离差异的统计分析,在中文数据集上得到了以下两点观察:新闻内容中提取的基于事实知识的实体嵌入对之间的关联程度即外部知识环境特征和时空条件限制下的外部新闻环境与新闻本身的不一致性即外部新闻环境特征对判断新闻的真实性存在统计学上显著的差异。

软件工程论文参考
软件工程论文参考

.........................
第五章总结与展望
5.1全文总结
在对数据进行统计分析验证的基础上,本文得出新闻语义环境特征具有强大的能力可以有效判断新闻的真实性。因此,提出了两种方法实现假新闻的早期高效检测。
(1)基于新闻语义环境感知的虚假新闻检测框架
提供了一个感知新闻语义环境的虚假新闻检测框架。不法分子制作和传播假新闻的主要目的是为了赢得观众的关注,从而达到自己的目的。事实上,虚假新闻通常在其所在的环境中滋生,并且可以从新闻语义环境中获得有用的信息来确定目标新闻的真实性。因此,所提出的框架旨在观察目标新闻的新闻语义环境,并通过环境构建、感知和预测阶段帮助预测待测新闻的真实性。实验结果表明,所提出的方法比其它所有基线方法都更有效,也更优于其他基线方法。
(2)基于挖掘新闻-双重外部环境不一致性的虚假信息检测框架
在本文中,通过对新闻数据的统计分析得出新闻-双重外部环境之间的不一致性特征对于判断新闻的真实性具有显著的相关性。因此,提出一个新颖的挖掘新闻-双重外部环境之间的不一致性框架(ENDEI),用来检测社交网络中弥漫的虚假新闻。该方法通过利用双重外部环境构建模块和新闻-双重外部环境不一致性特征提取模块捕捉新闻-双重外部环境之间的不一致性特征,进而实现虚假新闻的早期检测。此外,通过与基于新闻文本内容特征和基于外部环境特征的十种基线方法进行比较,证明了所提方法的优越性。在实验部分,消融实验和启示章节分别表明ENDEI框架的每一个组件都是不可或缺的,且所提方法可以同时关注新闻环境和知识环境信息,高效检测虚假新闻。
参考文献(略)


如果您有论文相关需求,可以通过下面的方式联系我们
点击联系客服
相关软件工程论文论文
QQ 1429724474 电话 18964107217