互联网舆情信息挖掘方法研究

论文价格:免费 论文用途:其他 编辑:vicky 点击次数:125
论文字数:65855 论文编号:sb2015071822300513526 日期:2015-07-19 来源:硕博论文网
第1章绪论

1.1课题背景及意义
我们可以看到,网络信息一方面是社会和谐与安全稳定的气象标,另一方一面又在网络舆论导向上扮演着重要的角色,涉及到社会、经济、政治的各个层面。目一前中国网民言论之活跃已达前所未有的程度,互动式的网络评论以其快捷、尖锐的特点,已显示了不可忽视的力量。在享受互联网普及带来的巨大便利的同时,必须认识到互联网对社会舆论和大众文化带来潜在的安全问题。从2003年春夏之交的非典疫情到引发废上收容遣送制度的孙志刚事件,从沈阳刘涌由死缓改为死刑事件到哈尔滨宝马车撞人的风波,从禁用女秘书的规定到“北大才子”卖猪肉的风波,从新华社自曝家丑到总理为民工讨工钱等等,网上形成的舆论热点不断。网络时代,舆论具有很大的不确定性,而一个热点话题的出现可能蕴含着某种社会安全危机。因此,如何充分发挥网络信息平台“千里眼,顺风耳”的积极作用,合理利用互联网中的海量信息资源,为建设和谐社会提供科学的决策参考,是我国各级决策机关所面临的重大挑战这使得互联网舆情信息挖掘孤爪二。娜发展成为一个非常有挑战性的新研究方向。
互联网技术的产生,为信息的发布、传递与获取带来了全新的概念,引发了新技术的出现`。从网络技术的现状及发展趋势来看,互联网舆情信息挖掘的挑战性主要体现在以下几方面:
(1)超大规模网络信砂息分布广泛,从传统的网站信息发布到网络论坛、即时通讯、手机短信平台、blog社区等等。信息来源越来越多样化。同时,用户规模持续增长,整体网络信息容量扩充迅速,规模已经超过了人类有史以来信息的总和。如此大的规模为信息的实时有效获取采集、存储与管理带来了新的挑战。
(2)信息应用平均化互联网快速发展引发的另一个巨大变革是民众对于信息应用与解读能力的不断平均化。影响信息综合应用与解读能力的主要因素有对于信源的及时了解、及时掌握和多信源的关联分析。在使用传统大众传媒的情况下,由于社会民众接触的信源无论在内容和数量上都受到较大约束,因此社会民众对信息源的应用和解读能力存在明显的差异。部分人群由于可以接触更多的非公共传播的信息,因此对信息可做出更好的应用与解读。而互联网时代社会民众对于信息利用与解读能力得到了前所未有的提升。由于互联网中信息资源的海量性和覆盖性,在传统传媒条件下存在的社会民众对信息利用和解读能力不均衡的现象得到了极大改善,也给舆情信息的及时疏导带来了便利。如何对网上舆论进行有效的监督和疏导是我国推进现代化建设,营造和谐社会的重要课题。

1.2本文的主要研究内容和组织结构
1.2.1本文的主要研究内容
本文围绕互联网舆情信息挖掘技术发展过程中遇到的难题,针对互联网舆情信息挖掘技术进行深入研究。
就互联网舆情信息挖掘的理论而言,本文通过深入分析舆情信息的产生时机、存在空间、变化走势、突变诱因等特性,和舆情信息在互联网这个特殊环境中的传播扩一散模式、采集机制、评价标准等特殊规律,提出互联网舆情信息挖掘的框架理论。
针对互联网舆情信息发展的不同阶段,本文结合互联网舆情信息在不同发展阶段所体现的不同特点进行有针对性的挖掘方法研究研究包括三个方面在互联网舆情的产生阶段,其表现形式为信息内容敏感的,因此研究互联网特定主题的倾向性过滤技术,日标是及时发现已知舆情主题的变化动态以及和已知主题内容相似的未知舆情在互联网舆情的发展阶段,表现形式为大部分网民阅览的,因此研究互联网访问信息流中频繁访问主题挖掘技术,目标是及时发现当前的群众关心热点话题以避免某些群众热点转化为突发事件爆发在互联网舆情的爆发阶段,其表现形式是大多数网页转载的,因此研究互联网舆情态势的计量模型,目标是对互联网所反映出的社会舆情态势进行监测、计量和分析。
期望通过本文的研究,能够解决目前互联网舆情信息挖掘技术发展过程中遇到的一些瓶颈性问题,从而推动互联网舆情信息挖掘技术的研究及其在大规模互联网上的应用。
1.2.2本文的组织结构
围绕着上述的研究内容与目标,本论文全文共分五章,组织结构如图1-3所示。


第2章互联网舆情信息挖掘的体系结构

2.1研究背景
舆情通俗地讲就是社情民意,对于舆情信息的及早发现、密切跟踪、及时上报有助于社会的稳定和谐。互联网舆情与社会舆情在内容表现形态方面具有一致性,互联网舆情在一定程度上会影响社会舆情的发展趋势。就社会舆情而言,其主要来源包括媒体、与群众利益相关性较强的权力部门和民间,信息采集方式包括社会调查、文本分析等手段,主要存在的问题是舆情获取较被动、来源较局限、舆情发现的时效性较差。
就互联网舆情而言,不仅仅是作为舆情的媒体来源那么简单。互联网舆情存在以下特点覆盖面广,网民数量占全国人口的十分之一时效性强,互联网发布信息没有过多的周转环节和层层报批的手续,发布信息及时问题尖锐,互联网用户发布信息不需要受到“长官意志”的干扰,揭露问题尖锐内容广泛,网络信息充分融汇了民间小道消息、主流媒体报道和民众评论。随着互联网技术的不断发展和网民数量的爆炸式增长,互联网成为群众参政议政、了解社会动态、发布个人观点的主要平台,同时也是社会管理者获取民众舆情信息、了解社会成员思想动态的主要来源之一。互联网舆情信息挖掘成为一个函待解决的研究课题。
研究互联网舆情信息挖掘,首先要从互联网舆情信息的基本特性研究起,只有把握了互联网舆情信息传播的来源、形成机制、传播规律,并遵循运用好这些特性,才能实现高效的舆情挖掘。本章针对互联网舆情信息挖掘的体系结构进行研究,明确互联网舆情和舆情信息的定义及其内涵、归纳出互联网舆情信息挖掘的基础理论,建立起互联网舆情信息挖掘的体系结构。
本章的组织结构如下第2节给出舆情和舆情信息的定义,进一步明确舆情和舆情信息的内涵;第3节从理论上分析舆情信息的存在空间、发生时间、变化规律与转化机制,构建舆情信息研究的基础理论第4、5、6节从互联网的技术应用层面上具体诊释互联网舆情信息的采集内容、采集来源、采集方式、评价空间与传播模型,解决互联网舆情信息的技术应用层面相关问题;第7节提出互联网舆情信息的体系结构,并从总体上分析各部分之间的关联。第8节小结全章。

2.2舆论情的定义与相关概念
2.2.1舆情的定义
目前我国对“舆情”这一概念还没有统一的认识。天津社科院舆情研究所的王来华教授从社会科学的角度出发,将舆情定义为“在一定的社会空间内,围绕中介性社会事项的发生、发展和变化,作为主体的民众对作为客体的国家管理者产生和持有的社会政治态度”。如果把中间的一些定语省略,舆情就是民众的社会政治态度,在本质上是民众所持有的、以民众和国家管理者之间对立与依存的利益关系为基础的基本态度
从互联网舆情挖掘的应用需求角度出发,我们倾向于一般意义上的舆情定义。舆情即社情民意,是指一定时期一定范围内的社会群体对某些社会现实和现象的主观反映,是群体性的意识、思想、意见和要求等的综合表现。在这个概念中,有几个词比较关键。“一定时期”强调舆情具有很强的时效性,过了这个时期相应舆情就失去了意义“一定范围内的”强调具体的舆情和某块区域或某个社会层面相关联,具有地域性,相应地对其它范围来说也带来了一定的隐蔽性,不易发现“社会群体的”强调舆情的来源是人民群众,而不是社会管理者“对社会现实和现象的”强调舆情关注的是社会问题,民众和国家管理者之间对立与依存的利益关系,不能够孤立于社会政治环境单独处理“群体性”强调舆情是大多数人所共同持有的一致观点,因此在进行舆情挖掘时候,必须体现出来大多数人、大多数网页都涉及到的内容,这里突出了舆情的统计特性。围绕着这几个关键点,我们将在节结合互联网舆情信息挖掘方法进行详细阐述。

第3章内容敏感网页的监控技术研究...............40
3.1研究背景..............40
3.2相关工作分析............41
第4章互联网频繁访问主题挖掘.............66
4.1研究背景...........66
第5章互联网舆情态势计................90
5.1研究背景............90

第5章互联网舆情态势计量

5.1研究背景
互联网的网民数量庞大、新闻信息来源丰富且不局限于主流媒体、群众获取信息全面、参与信息转载和评论便利,使得互联网极大程度地反映了群众对于社会现象所持的观点和态度。因此对于互联网舆情态势的计量有助于了解社会的“稳定度”。然而日前存在的问题是尚缺少对要计量的非物化社会现象的深入定性分析,使得计量模型的指标体系难以构建计量非物化社会现象的操作系统不健全,致使指标体系缺乏长期得以运行的平台。互联网舆情态势计量模型的研究即从网络媒体的角度,建立量化指标体系,通过分析互联网对具体新闻事件的报道强度了解互联网舆情的状态,以便为决策者提供社会运行安全态势的预警,辅助决策者执行预控和管理手段。
本章借鉴经济预警和自然预警领域成功经验,提出以搜索引擎采集到含特征词的WEB网页数量为基础的NISAC指数方法,量化评价互联网舆情态势提出以互联网相似新闻专题汇聚后形成舆情主题种一子,基于种子覆盖的网页集合进行特征词提取的方法实现指标体系编制探讨特征词的互联网上扩散度统计曲线绘制及指数曲线的特性分析和能力验证,提出基于信息采集、数据处理与深入分析的舆情态势计量管理系统框架。

结论

围绕上述问题,本文针对互联网舆情信息挖掘方法进行研究,设计了互联网舆情信息挖掘的体系结构并就互联网舆情信息在不同形成阶段的挖掘算法进行探讨。概括起来,本文的创新性成果和主要贡献主要包括
(1)针对互联网舆情信息挖掘的体系结构进行研究,提出互联网舆情信息挖掘的四层体系结构,包括属性层、信息采集层、挖掘层和处置层。其中属性层关于舆情信息的基本属性,信息采集层关于互联网舆情信息采集过程中涉及到的关键问题,挖掘层关于互联网舆情信息的挖掘方法,处置层关于互联网舆情信息的评价、分析与处置手段。互联网舆情信息挖掘的体系结构为互联网舆情信息挖掘提供了理论基础,以便根据舆情处于不同阶段的不同特点、基于不同挖掘目的、针对不同挖掘内容、深入不同挖掘空间、采取不同挖掘手段、并提供不同角度的舆情综合分析报告,以便保证舆情挖掘的准确性、时效性和全面性。
(2)在互联网舆情信息的转载阶段,针对大多数网页转载的新闻主题进行舆情态势计量,提出互联网舆情态势计量方法——NISAC指数方法,以便用户了解当前互联网舆情主题的状态,发现热门舆情事件的发生和群众对事件的舆论倾向。NISAC指数以互联网空间中含有特定词的页面数量为基础进行指数编制。通过对年至仍年采集到的相关页一面数量信息分析发现,基于相关页面数量生成的指数有助于发现未知舆情事件、把握新闻事件的舆情走向、了解新闻主题的舆情态势。本章提出NISAC指数监测系统框架,包括指标特征词维护、指标信息采集、数据处理、数据深入分析四部分,能够实现NISAC指数的一长期采集、发布与分析,帮助决策者及时、准确、全面地了解互联网舆情态势。
综上所述,本文针对互联网舆情信息挖掘技术进行深入研究,并取得了一定的成果。
参考文献(略)

QQ 1429724474 电话 18964107217