Web实体事件重复检测问题研究

论文价格:免费 论文用途:其他 编辑:vicky 点击次数:158
论文字数:31025 论文编号:sb2014121710162011208 日期:2014-12-19 来源:硕博论文网

第1章绪论

 

1.1研究背景及意义

随着网络技术的日新月异,Web上的信息也在飞速增长。Web已经成为一个巨大的数据源,拥有着海量的数据。这些数据中含有大量有价值的实体事件,对人们的工作和社会生产具有举足轻重的作用。对Web上的实体事件进行充分的挖掘和分析,能够获取丰富的知识,在市场情报分析、舆情分析、电子商务、商业智能等领域具有十分重要的意义。但是Web是一个自由和开放的空间,Web实体事件来自不同的数据源,Web数据源具有自治性强的特点,Web数据具有形式多样、发布随意、表达自由等特点;另一方面,自然语言也具有灵活多变的特点,对同一实体事件采用不同的表述方式是一种极其常见的现象,例如“浙江吉利控股集团有限公司收购了福特汽车公司旗下沃尔沃轿车公司的全部股权”和“吉利与福特汽车完成对沃尔沃轿车资产的交割”,这两个实体事件表象都是在描述同一实体事件,但是却采用了不同的表达方式。因为各种原因,Web实体事件的重复现象随处可见,这给实体事件的分析发现工作带来了极大的困难,也给搜索信息的用户和决策者带来了很大的困扰。因此,对来自不同数据源的实体事件表象进行重复检测,是一件非常有必要的工作,同时实体事件的重复检测也是Web实体事件发现研究的重要子任务。实体事件重复检测的目标包括识别重复、去除冗余等。

在对实体事件进行重复检测之前,首先要WEB将页面上的实体事件表象抽取出来,然后将实体事件表象用无结构化或者结构化的形式表示出来。无结构化表示方法通常是用一条或者多条语句对一个实体事件进行描述。结构化表示通常是将实体事件的各个属性(例如时间、地点、主体等)抽取出来,按照一定的模型填充实体事件的各个属性维度。无结构化的实体事件表示方法通常是基于语句的表示方法。无结构化实体事件表示方式对于实体事件抽取的要求相对较低,因为这种方法基本不对数据源上的用各种自然语言表述的实体事件做任何形式的改变,更不需要识别实体事件的时间、地点、主体等各种属性。但是因为自然语言的自由性和复杂性,在基于语句的实体事件表示方法之上进行实体事件的重复检测是一件极其困难的工作,而且最终的重复检测结果也往往很难令人满意。结构化实体事件表示方法主要有基于属性的实体事件表示方法和基于图的实体事件表示方法。与无结构化实体事件表示方法相反,结构化实体事件表示方法虽然对抽取过程有较高的要求,却能够为后续工作(包括实体事件重复检测和实体事件融合等)带来极大的便利。结构化的实体事件表示方法己经展示出了极大的优越性。因此,本文采用的是结构化的实体事件表示方法,在此基础上进行实体事件的重复检测。

 

1.2实体事件重复检测面临的问题

Web数据源不同于结构化的数据源,它具有形式多样、发布随意、表达自由等特点。对Web实体事件进行重复检测面临着以下问题:

(1)Web数据源门类广泛、形式多样,例如官方网站和个人微博都可能成为提供实体事件的数据源;Web实体事件形式多样、表达自由,例如同一个实体事件的不同表象可能来自新闻报道,也可能来自某些评论;自然语言具有灵活多变的特点描述同一个实体事件可以有多种不同的表达方式;Web实体事件的发布者之间存在职业和水平差异,一个实体事件可能出自某个受过专业训练的记者的报道,也可能来自某些网友的随意评论。因为各种原因,实体事件的重复现象随处可见。如何将表意相同、表达方式不同的实体事件表象识别出来,是一个亟待解决的问题。

(2)实体事件关系没有被充分利用。Web实体事件往往并不是孤立的,其发生和发展必然与其他实体事件间存在着某种关系。即实体事件间存在着某种紧密的关系。例如,“2011年双汇召回肉制品’’和“河南生猪含有瘦肉精事件遭到曝光’这两个实体事件之间就不是相互孤立的,他们之间存在着某种关系。充分利用实体事件之间的关系,可以为实体事件的重复检测提供新的思路。但是在实体事件的重复检测领域,目前的相关研究都把Web实体事件当成孤立的。这些研究往往只利用了实体事件本身的一些特点,而没有考虑到利用实体事件之间的关系。

 

第2章实体事件重复检测相关研究

 

2.1引言

随着网络技术的飞速发展,Web上的信息量正以爆炸式的速度增长。Web信息量的增长使其成为一个巨大的数据源。在Web上的海量信息中,存在着大量有价值实体事件,对人们的工作和社会生产具有举足轻重的作用。对Web上的实体事件进行充分的挖掘和研究,能能够获取丰富的知识,在市场情报分析、舆情分析、电子商务、商业智能等领域具有十分重要的意义。例如,对一个企业的实体事件踪迹进行分析研究,分析这个企业的成长历史、当前状况以及未来发展,对于一个求职者来讲,具有十分重要的意义。

但是Web实体事件往往来自不同的数据源,Web数据源具有很强的自治性;Web实体事件发布随意、形式多样、表达自由;Web数据质量也参差不齐,对同一个实体采用全名、缩写、别名的现象屡见不鲜,大量数据源对同一实体事件进行重复报道的现象也随处可见,甚至对实体事件报道失实的现象也时有发生;同时自然语言灵活多变,同一实体事件在不同的Web页面上往往釆用不同的表达方式。这些现象给实体事件的抽取发现带来了极大的困难,而且抽取出的实体事件往往互相重复、互相冲突。记录一个实体发展轨迹不同阶段的实体事件往往孤零零地、毫无规律地分布在毫无联系的各个Web页面之上,对于用户来说,一个完整的实体踪迹往往很难构建。研究实体事件,构建完整实体踪迹,是一个非常艰巨的任务。因此,对Web实体事件发现研究并进行踪迹分析研究就成了一件非常有必要的工作。

本文的研究重点是Web实体事件重复检测,是Web实体事件发现研究与踪迹分析研究的重要子任务。本章将首先对Web实体事件重复检测问题的研究现状进行简单介绍,对目前的研究方法进行分类,介绍Web实体识别与统一问题的研究现状。然后分析Web实体事件关系识别与应用问题的研究现状。最后,对现有相关工作进行总结。

 

2.2实体事件重复检测问题研究现状

2.2.1实体事件重复检测方法分类

在Web实体事件重复检测研究幵始之前,在数据库领域就已经有重复记录检测的相关研究了。而且数据库领域的重复记录检测多釆用无监督学习方法。文献提出使用TAILOR方法。具体方法是采用K-means聚类,把待进行重复检测的记录聚成匹配类、可能匹配类和不匹配类。利用已经确定的匹配类和不匹配类这两个类,训练一个可以用于为可能匹配类分类的训练树,从而再将可能匹配类分成匹配类或者不匹配类。该方法最大的问题是训练树的准确性得不到保证,重复记录分类的效果也就得不到保证。增强的聚类决策模型是一种更好的重复检测模型,它比K-means又多了一个模糊区域,这样用户就可以更灵活地调节匹配记录对类和不匹配记录对类的聚类情况,从而达到更好的重复检测效果。无监督学习方法的优势在于不依赖样本数据。但是数据库领域的记录重复检测方法并不直接适用于Web实体事件重复检测。因为Web实体事件更多样,发布更自由,表达方式更灵活。

实体事件表象的重复检测工作是建立在实体事件表象的表示方法基础之上的,采用什么样的重复检测方法首先要看釆用的是什么样的实体事件表象表示方法。实体事件和实体事件表象的表示方法通常有三种⑴,第一种是基于语句的实体事件表示方法,将实体事件表象抽取出来并用自然语言来描述它;第二种是基于属性的实体事件表示方法第三种是基于图的实体事件表示方法。

基于语句的实体事件表象表示方法,将实体事件或者实体事件表象用一条或者一组完整的语句来描述。基于语句的实体事件表象表示方法最大的好处就是相对简单,因为这种方法不需要依赖复杂的自然语言处理方法来抽取实体事件或实体事件表象的各个属性。当然这种方法的缺点也非常明显,因为没有明确表示出实体事件表象的各个属性,因此在进行实体事件的重复检测和实体事件的融合时,这些语句很难处理。目前在基于语句的实体事件表示方法上,也有一些重复检测的相关研究。

 

第3章基于动态权重的线性组合方法的实体事件表象重复检测........16

3.1引言........16

3.2问题定义......17

3.3基于动态权重的线性组合方法........17

第4章基于属性和基于关系的实体事件重复检测.............28

4.1引言.........28

4.2问题定义.......29

第5章总结与展望........37

5.1总结........37

5.2展望......38

 

第4章基于属性和基于关系的实体事件重复检测

 

4.1引言

重复的实体事件表象描述的是同一实体事件,将重复的实体事件表象聚成一类,就可以表示一个实体事件,所以实体事件是由重复的实体事件表象组成的集合表示的。如果对实体事件表象聚类不充分,就会出现这样的现象:两个不同实体事件中的实体事件表象描述的是同一实体事件,这样由实体事件表象的集合组成的实体事件其实重复的,即实体事件之间也可能存在重复。为了去除实体事件之间的重复,就需要进行实体事件的重复检测。实体事件的重复检测,一种最直接的想法就是釆用一定的规则将实体事件之间的实体事件表象进行比较,满足一定条件就做出实体事件重复的判定,不满足条件就做出实体事件不重复的判定。根据这种思想,本章将提出实体事件重复检测的第一种方法:基于实体事件属性的重复检测方法。

除此之外,有没有其他的思路呢?

Web实体事件往往并不孤立,其发生和发展必然与其他实体事件间存在着某种关系。即实体事件间存在着某种紧密的关系。例如,“2011年双汇召回肉制品”和“河南生猪含有瘦肉精事件遭到曝光”这两个实体事件之间就不是相互孤立的,它们之间存在着某种关系。实体事件间的关系从不同的角度可以有不同的分类。文献认为实体事件间存在的关系分为组成关系、因果关系、跟随关系、并发关系、条件关系、排斥关系八类;文献则认为实体事件间的关系有序列关系、组织关系、因果关系等。与多个相同的实体事件存在关系的实体事件必然是非常相似的。这给了我们很好的提示:在特定的范围内,两个待比较的实体事件、可能都与其他某些实体事件存在关系,那么与存在关系的实体事件和与存在关系的实体事件之间相似度越高,实体事件和重复的可能性也越大。举个极端的例子,如果与两个实体事件有关系的其他实体事件完全相同,这两个实体事件就有极大的可能性是重复的。基于这种想法,本章充分利用实体事件关系,提出了实体事件重复检测的第二种方法:基于实体事件关系的实体事件重复检测方法。

 

5章总结与展望

 

5.1总结

随着网络技术的日新月异,Web上的信息量也在以爆炸式的速度增长。Web己经成为一个巨大的数据源,拥有着海量的信息。这些信息中含有大量有价值的实体事件。对Web上的实体事件进行充分的挖掘和分析,能够获取丰富的知识,在市场情报分析、舆情分析、电子商务、商业智能等领域具有十分重要的意义。但是Web是一个自由和开放的空间,Web实体事件发布随意、形式多样、表达自由;自然语言也具有自由灵活的特点,相同的含义可以用不同数量、不同形式的语句表达。因此,在Web上,同一实体事件采用不同的表述方式是一种极其常见的现象。这给实体事件的分析发现工作带来了极大的困难,也给搜索信息的用户和决策者带来了很大的困扰。为了让用户获得简洁、准确、无重复的实体事件,就需要对来自不同数据源的实体事件表象进行重复检测。

Web实体事件重复检测也是Web实体踪迹发现研究领域的重要子任务。Web实体踪迹发现研究通常包括实体事件的抽取、实体事件的重复检测与融合、实体踪迹发现分析。实体事件的抽取、实体事件的重复检测与融合目前已经有了较多的研究,但都存在不足;实体踪迹发现分析,需要识别并利用实体事件间的关系及各种规律,目前相关研究相对较少。

本文就Web实体事件重复检测问题展开研究,研究目标是将表意相同、表达方式不同的实体事件表象识别出来。本文将实体事件的重复检测分成了两步:实体事件表象的重复检测和实体事件的重复检测。针对传统相关研究的不足之处,本文对实体事件重复检测的两个过程分别提出了相应的解决方法,主要工作与研究内容如下:

(1)针对实体事件表象的重复问题,根据商业领域中,同一时间、同一地点,一个特定的主体只能参加一个活动这一个规律,提出了“基于动态权重的线性组合方法”。重点利用时间、地点和主体三个主要属性,将剩余属性作为辅助,结合动态权重得到两个实体事件表象的相似度,以判断事件是否重复。

(2)针对实体事件的重复问题,本文在实体事件表象相似度计算方法的基础之上,进一步提出了两种实体事件重复检测的方法:基于实体事件属性的重复检测方法和基于实体事件关系的重复检测方法。第一种方法是一种直接的比较方法,直接比较待检测实体事件本身;第二种方法是一种间接的比较方法,它根据实体事件之间的关系,将待比较实体事件的关联实体事件进行比较,进而得出两个待比较实体事件之间的关系相似度。将两种方法结合使用,可以得到较为满意的结果。

参考文献(略)


QQ 1429724474 电话 18964107217