第一章 绪论
1.1 论文的研究背景与意义
微博是一个即时性和交互性强的网络开放服务平台,区别于传统的新闻媒体,它内容及其表示形式都有不同于传统媒体之处。微博内容短小精悍,限制在140字以内,而且表现形式多样,比如文本,图像,音乐,视频和其他形式的表示信息都可以在微博平台上展现。用户不但可以在自己的微博内容里加入图片、视频及其他相关网站的链接,还可以转发、评论自己感兴趣的信息。与传统的博客、论坛等其他新闻互动相比,微博服务的自由性和开放性也成为微博受到大众青睐的一大法宝。用户不仅是被动的信息接收者,更是信息的发起者,用户可以随时随地发表自己的所见所闻,也可以关注特定的话题或人物,随时发表自己的见解和意见。微博互动性强,每一个用户可以关注任一个用户,也可以被任意一个用户关注,它是一个双向互动的过程。
微博服务的快速发展给网民带来便利的同时,也由于它的开放性和自由性带来了诸多问题。近年来,由于大众倾向于利用网络表达自己的情感,因而网络成为了重要的舆情渠道,网络舆情也逐渐受到专家、学者及相关部门的注意。微博作为当今网民自由表达情感的重要网络平台,诸如网民态度、情感、情绪甚至发泄等信息不断涌现在微博平台上,而其中一些过激的言行或行为很可能误导群众,使得某一特定事件的发展不可控制。也正因为此,政府及其相关部门纷纷开通微博服务,试图及时发现网络舆情信息,并加以正确的引导。因此,利用微博平台及时发现网络偏激行为并紧密的跟踪,准确的了解事件的发展状况及趋势对优化网络环境、控制事态发展起着积极有效的作用。
随着互联网的日益普及,微博信息量正以惊人的速度激增,传播速度之快也令人咋舌,影响之大也令相关部门逐渐认识到微博网络舆情对大众的影响日益加深。因此,近年来相关部门逐渐认识到微博网络信息对社会影响的重要性,纷纷对微博网络信息加以挖掘并分析,网络舆情检测与追踪技术受到重视。要想及时有效的了解某一事件的发展状况并对其发展趋势进行有效的预测,话题追踪是其中一个必要环节。近年来,政府及其相关部门相继加强对微博信息平台的监督和深入研究,正是因为认识到舆情信息的控制离不开信息的有效监督和深入挖掘,而话题追踪技术正是其中一个必不可少的技术也是一个重要组成部分。
..................................
1.2 研究现状
1.2.1 国外研究现状
微博话题追踪是近几年随着微博的大肆兴起在微博平台上进行的一种话题追踪,它是将传统的在新闻、博客和论坛等网站上进行的话题追踪技术搬移到微博平台上。因此,为了更系统展示话题追踪的研究发展,这里我们从话题检测与追踪的研究开始论述。
1996 年,美国国家标准技术局(National Institute of Standards and Technology,简称NIST)和国防高级计划研究署(Defense Advanced Research Projects Agency,简称DARPA)为了发展信息组织技术,将一系列事件有效组织起来,减轻人们日常信息中过载的问题,发起了话题检测与追踪(Topic Detection and Tracking,简称TDT)的研究。TDT 研究的初始目的简单,希望新闻数据流的主题能被自动的检测出来而没有人为的的干预[1]。话题追踪任务(Topic Tracking Task ,简称TT)是话题检测与追踪[2-4]的五个子任务之一,它的主要功能是检测数据流以发现某一特定话题的相关后续报道。其中,这个特定话题并没有事先明确的描述,它是通过几篇相关的先验报道简单的训练得出。一般情况下,NIST 给出1-4 篇相关报道作为先验报道。同时为了更新和优化话题模型,NIST 提供了训练语料。利用当前的话题模型,依次判断到来的后续报道与当前话题的相关度,从而实现跟踪的功能。
1998 年开始,TDT 研究受到重视并取得了快速、充分的发展。为了推动TDT向多领域、多语言的发展,TDT 评测先后对广播数据、互联网数据展开研究,涉及到英语、阿拉伯语和汉语等语言领域。经过各研究机构和大学的研究,也不乏有代表作品出现。CMU[5-6]、UPPEN[7]和UMASS[8]是追踪性能较好的三个系统。CMU 使用两种包括K 最近邻算法(K-Nearest Neighbor,KNN)和决策树(DecisionTree,D-tree)算法来进行追踪研究,它首先通过KNN 分类算法选择某一特定报道的K个最相关的先验报道,然后通过决策树算法来选择最终所属的类别;UPEEN首先定义一个话题模型,这个话题模型由较多的相关报道和较少的不相关报道训练得出,在追踪过程中,不断用不相关报道去弱化话题模型中的不相关因素,从而达到优化话题模型的效果;UMASS 是马萨诸塞大学开发的,在系统中引入了相关性模型,利用Clarity-adjusted 分散度来衡量当前某一报道与话题模型的相关度。Dragon System 公司也进行了话题追踪的相关研究,它采用语言模型和基于KLdivergence 的聚类算法相结合的方法进行话题追踪,它的一个突出的特点是在建立语言模型时,去掉了禁用词等代表性弱的特征词,同时利用backoff 技术来平滑语言模型[9]。T.Leek 建立了一个话题追踪分类器系统,他采用简单贝叶斯分类算法的概率模型,并且对于不同的报道,该系统采用不同的评价公式来计算当前报道与某一话题的相似度[10]。James Allan 设计了一个分类器进行话题追踪,这个分类器基于经典的Rochio 算法,该算法在调整话题模型时,主要是采用经验性构造策略来调整特征词的权重[11]。Watanabe 是面向日语的话题追踪系统,他利用时间特征词如“正如当前发生的…”和“正如前面所报道的”等特征信息进行话题追踪[12]。
...................................
第二章 相关技术
2.1 微博相关知识介绍
2.1.1 微博概述
微博最早起源于美国,由埃文威廉姆斯(Evan Williams)开发并创建,值得一提的是,此人正是博客的创始人。2006 年,世界上首款微博客服务—Twitter 由埃文威廉姆斯的公司Obvious 推出。但是那时候微博的功能还很简单,仅是通过微博服务平台将所要传达的文本信息发送给好友。后来随着网民对服务要求一步步加深,当年年底Obvious 公司便推出了微博服务网站Twitter,相比于原来的发送信息,这时微博客用户不仅可以随时发送信息,还可以接收信息。Twitter 的推出,引起了网民极大的关注。他们发现,他们可以通过Twitter 寻找好友,随时发表自己、获取别人状态信息并可以通过微博了解某一事件的发展状况。也正因为此,当时的美国总统大选、迈克尔杰克逊的去世等信息引起了美国民众的普遍关注并在微博迅速传播。
Twitter 一经推出,其用户量快速激增,用户范围也不断扩大。2007 年,国内出现了一些类似Twitter 的网站,如做啥、饭否、叽歪、9911、同学网等,但都在2009 年7 月因技术问题关闭。2009 年8 月,新浪公司新浪微博内测版,成为国内首家推出微博服务的网站。从2010 年初开始,微博服务在国内迅速兴起,腾讯、网易、搜狐、凤凰网的微博服务也开始起步。自此,微博开始在国内得到广泛传播和应用。
微博区别于传统的新闻媒体,有其独到之处,下面就微博的特点列举简单的几例进行介绍。
(1)微博文本短,限制在140 字以内。微博字数少,语言简洁明了,清晰易懂。虽然微博文本短,信息匮乏,但微博信息表现形式多样,包括文本、视频、音频、图片等多种表现形式,再加上可以在微博内容里加入链接,也可以说微博信息量丰富。
(2)微博信息是用户对当前正在发生的某一事件的描述和快速反应,具有即时性的特点。由于微博用户多而分布广泛,大家可以随时随地把自己的所见所闻发布到微博上,很少有人经过深思熟虑后才发布信息,再加上微博无需审核,用户可以随时通过手机、移动终端等设备自由的发布信息,一些突发事件也会快速显现出来,所以微博具有即时性和突发性等特点。
(3)微博传播迅速,具有裂变式传播的特点。微博提供了简单灵活的“发布”、“转发”和 “关注”功能,用户只需要轻轻点击一下鼠标就可以转发和关注自己当前感兴趣的话题。微博的“转发”和“关注”不需要经过对方的同意,这为微博信息的快速传播提供了可能。微博的传播方式不是传统的一对一的传播,而是一对多、多对多的裂变式传播。假如一条信息由用户A 发布,而用户A 有B1、B2、B3…等多个关注者,如果他们对这条信息感兴趣,则他们可以无限制的转发该信息,而B1、B2、B3…的关注者又可以转发B1、B2、B3…的信息,如此传播下去,经过层层转发,那么微博就呈现裂变式传播。
(4)微博具有“交互式”交流的特点,互动性强。微博用户可以随时发布信息和接收信息,它的转发、评论功能使得微博的互动性更强。微博交互不需要获得对方的同意,用户可以对自己看到的信息无限制的转发和评论,当然,别人也可以无限制的转发和评论自己的信息。
..........................
2.2 信息采集
若要发现微博客热点话题,首先需要对微博客进行数据采集。本文所采集的语料均采用正则表达式匹配方法。为了增强其采集功能,还设置了主题搜索和增删URL 等功能的实现。对采集到的数据进行处理,以便数据检测和追踪使用。对数据进行预处理包括去除无用符号的处理、分词处理、去除停用词处理。对于去除报道中的无用符号,比如网页标签,导航信息、句号、逗号和问号等无用的标点。若不去掉这些符号,会影响网页的分析。对于切词处理,采用中科院的切词处理方法,并去除停用词,如“了”、“吗”等。
2.3 话题追踪
2.3.1 自适应话题追踪及其常见方法简介
话题追踪是对于已知的某一个特定话题或几个话题,在后续报道流中识别出它的相关后续报道。一般情况下,话题追踪分为传统话题追踪(Traditional TopicTracking,简称TTT)和自适应话题追踪(Adaptive Topic Tracking,简称ATT)。在一般情况下,传统话题追踪有两种研究方法,一个是基于知识的方法,另一个是基于统计的方法。前者的核心问题是基于报道内容的,通过关联检测分析两篇报道内容之间的关联性或者两篇报道的前后继承关系,经过关联检测并利用领域知识将相关报道串联成一体;后者则是统计概率分布特征后,通过主题统计报告和战略决策模型来判断相关性。自适应话题追踪加入了学习机制,是一种具备自学习能力的话题追踪,每判定完一篇报道后,如果该报道符合某一标准,就将该报道加入训练集用以训练话题模板,并在适当的时刻从训练集中抽取报道来训练话题模板。
在传统话题追踪中,在未知的情况下构造话题模型时,NIST 提供1-4 篇相关报道。但是,随着时间的发展,话题的侧重点不断发生变化,原来的话题模型不足以表达现在话题的发展。因此,针对话题的演变,调整话题模型是必须的,自适应话题追踪就是一种调整方法。ATT 研究方法包括基于内容的和基于统计的两种方法。首先利用话题和报道的文摘进行相似度计算,然后对于后续的报道,进行相似度计算后,利用相关报道的文摘和初始建立话题模型的事件进行组合来建立话题模型。这样话题模型既包含了话题的中心主题,又能随着时间的发展,涵盖话题各个阶段的侧重点,对后续报道的检测效率更高。但这种方法并没有利用自学习的方法更新模型。后续报道在检测出相关后,并没有用来更新模型。所以,此模型对于跟踪后续相关报道效果不佳。而基于统计的ATT 则利用了自适应信息过滤方法来实现话题追踪。这种方法的ATT 具备自学习能力,减弱了由于先验报道不足而引起的跟踪效果不佳的影响,提高了话题跟踪能力。Dragon[39]和UMass[40]都对ATT 进行了研究。两者都利用检测到的相关报道更新话题模型。两者也有一定的区别。Dragon 检测相关报道,并利用语言模型来更新和构造话题模型。UMass 利用提供的先验报道构造话题模型,并计算话题模型与这些先验报道的相似度值,取相似度值的平均值作为阈值,对于到来的后续报道流,如果相似度值大于该阈值,则放入训练报道集,再利用上述方法重新构造话题模型和设计阈值。这两个系统相对于传统的话题追踪系统取得了较好的效果,但并没有加大的提高跟踪性能。因为这实际上是一种伪反馈,大量不相关报道被加入训练集,使得话题模型偏转,造成话题漂移。LISMI[41]改变了这一缺陷。因为在训练报道的选取过程中,选取那些相关度较高的作为训练报道。而且,LISMI 比较了动态和静态权重更新策略的优劣,提出了动态权重更新策略。
...................................
第三章基于速度增长的微博话题发现方法...........................................13
3.1 问题描述.............................................13
3.2 基于时间序列的热点主题词检测........................................13
3.2.1 时间序列..................................................13
3.2.2 斜率计算..........................................................14
3.3 话题抽取...........................................................15
3.3.1 主题词抽取............................................15
3.3.2 主题词聚类.............................................15
3.4 实验结果及分析..............................................16
3.4.1 实验数据..............................................16
3.4.2 实验结果分析............................................17
3.5 本章小结................................................20
第四章基于时间发展的微博自适应话题追踪方法..................................................21
4.1 话题模型和报道模型表示.......................................................21
4.1.1 特征词抽取方法........................................21
4.1.2 特征词权重计算...............................................21
4.1.3 话题模型表示方法.........................................22
4.2 基于相关性检索的特征词扩展方法...................................................22
4.2.1 问题描述..............................................22
4.2.2 相关工作..............................................23
4.2.3 基于域加权评分的报道抽取................................................23
4.2.4 基于域加权评分的扩展特征词抽取............................................24
4.3 基于时间衰减的特征词权重调整方法.............................................25
4.3.1 问题描述............................................25
4.3.2 相关工作................................................25
4.3.3 基于时间衰减的特征词权重调整方法.....................................25
4.4 自适应话题追踪方法描述................................................26
4.4.1 传统话题追踪的实现方法.............................................26
4.4.2 自适应话题追踪的特点....................................27
4.4.3 基于双重过滤技术的话题模板调整方法.......................................27
4.4.4 自适应话题追踪实现方法.............................................29
4.5 实验及结果分析...................................................30
4.5.1 实验数据.................................................30
4.5.2 实验评测指标...........................................30
4.5.3 实验及设计结果说明..............................................31
4.6 本章小结........................................................33
第五章 网络舆情监测系统设计与实现
话题追踪系统是本章介绍的舆情监测系统的一个子系统,它的主要功能是对于给定的特定话题,在后续的大量报道中筛选出与该话题相关的报道。本文提出了基于时间发展的微博自适应话题追踪方法,并将该方法用于系统追踪中,并对系统的性能进行了评测。
5.1 系统的总体设计
5.1.1 系统的设计目标
舆情监测系统要实现对信息的采集、聚类和分类,将用户感兴趣的信息或当前正在发生的某一热点话题呈现给用户,而对于用户不感兴趣的信息或当前的非热点直接进行过滤掉。因此,系统不仅要考虑呈现的结果,还要考虑用户的接受度,使系统舒适的展现给用户。当今是一个信息爆炸的时代,由于网络的开放性、交互性和自由性,各种信息 相互融合,使得一些突发事件在网络上表现出来,因此,相关政府部门为应对网络舆情,纷纷开通微博等提供网络服务。因此,开发网络舆情系统有着现实的意义。
针对话题追踪中存在的数据稀疏、话题漂移等问题,该系统实现了数据采集和话题检测的基础上,重点对话题追踪进行了设计,并在此基础上对话题的热度进行计算,最后呈现给用户。系统的功能设计目标如下:
(1)系统采用客户端-服务器模式,将数据采集与处理、话题检测、话题追踪、热点话题发现、倾向性分析放在服务器端,在服务器端计算和设计的基础上,舆情结果将在客户端呈现给用户。
(2)数据采集和处理模块可以随性采集也可以根据某一个主题采集数据,并将采集到的数据切词后存入数据库。
(3)话题检测利用简单的聚类算法得出当前疑似热点话题,并对每一个话题给予相应的话题号和话题模型,并存入数据库。
(4)话题追踪对于上一步检测出的疑似热点话题追踪其相关后续报道,以显示话题的发展趋势,并对后面的热点话题发现和倾向性分析做准备。
(5)热点话题发现模块对于发现的疑似热点话题并根据追踪的结果计算它的热度,如果热度大于某一个阈值,则标记为热点话题,
(6)倾向性分析模块的主要功能是分析当前某一热点话题的倾向性,以显示当前群众的情感态度,并根据倾向性词典综合计算倾向性值并写入数据库供客户端调用。
....................................
第六章 总结与展望
6.1 本文总结
近年来,互联网的快速发展使得网络媒体逐渐成为人们生活中的一个重要信息分享来源和信息接受来源。随着网络媒体技术的日益成熟,实时分享已成为当今网络媒体的一个重要且普遍应用的技术。人们越来越喜欢使用网络分享自己的所见所闻、发表自己的情感态度。微博作为这样一种实时交互媒体,其自由性、交互性和开放性使得微博正受到广大网民的青睐。人们可以在微博平台上发表自己的意见,分享自己的所见所闻,还可以及时获得网络新闻报道。随着微博用户的急剧增长,微博信息量也几句急剧增加,又由于微博的及时性、便捷性和超前性,人们逐渐倾向于从微博获取当前正在发生的某一热点事件并随时随地跟踪事件的发展。一方面,一个热点事件的发生往往导致微博用户的密切关注,人们寄希望于从微博平台上及时获取当前的热点事件;另一方面,人们更加关注热点事件的发展趋势,希望对事件密切跟踪以便随时了解发展动向。
针对当前用户对微博的主要需求,本文展开了研究,主要研究内容如下:
(1)分析微博话题的时间敏感性特点,提出了基于速度增长的微博热点话题追踪方法。它能够根据增长速度及时了解热度正在上升的话题,从而及时捕捉到热点话题。
(2)在微博话题追踪中,由于数据稀疏问题话题模板静态不变问题常导致话题漂移现象,从而引起召回率和准确率低的问题,本文提出了基于时间衰减的特征词权重调整方法。对于数据稀疏问题,利用相关性检索的方法来扩展特征词;对于话题模板静态不变问题,利用时间衰减的特征词权重调整方法来调整特征词权重,并用双重过滤方法来调整话题模板。
(3)本文提出的基于时间衰减的微博自适应话题追踪方法应用到网络舆情监测系统中,对系统性能有一定的提高。本文综合考虑了微博的特点及其影响,提出了一种自适应话题追踪方法,改变了传统话题追踪中的数据稀疏问题和话题漂移问题,对话题追踪效率有一定的提高。
........................................
参考文献(略)
基于时间发展的微博自适应话题追踪研究
论文价格:免费
论文用途:其他
编辑:zhouting
点击次数:127
Tag:
相关研究生论文论文