第一章绪论
1.1课题背景
近年来,伴着互联网技术的飞快进展和网络数据库的日渐丰富,论文信息的获取越来越便利。科研人员可以很方便地检索到各种需要的学术论文,协助研究工作。但与此同时,也方便了论文的抄袭,抄袭者只需进行简单的复制粘贴即可将他人的论文内容占为己有。学术领域的论文票(窃行为愈演愈烈,引起了社会上的强烈关注。早在2001年,‘据一份由美国学术信誉(Academic Integrity)研究机构的Donald对来自美国25所学校的4500名学生的调研问卷统计:72%的学生承认在写作时有过一次或多次的抄袭行为;另外,97%的学生承认在发表论文或写作业时曾经尝试过抄袭;还有15%的学生承认在发表论文时,部分章节来自学术刊物或者网站而不注明出处;90%的学生承认曾经通过互联网抄袭。据最新报道,《科学》杂志刊登了一个研究组在报告中列出的”潜在窃者”名单,这些名单上的作者所著的科学论文与以前曾出版过的作品平均有高达 86.2%的相似。
在我国,论文剽窃行为已经变得非常严重,国内新闻媒体屡屡出现关于各知名高校教授或者学生剽窃论文的报道。论文剽窃行为的存在,严重影响了我国崇高学术形象的塑造以及各大高校高素质人才的培养。要杜绝这种现象,净化学术环境,重塑我国的学术形象,教育部于2004年8月颁布了建国以来第一个《高等学校哲学社会科学研究学术规范(试行)》,严厉打击各种论文剽窃行为,各高校也纷纷采取措施惩罚论文剽窃行为,以杜绝学生、教师的论文抄袭、票(窃的行为。
除了要加强学生和教师的教育、制定相应的法律法规外,建立有效的剽窃检查系统己刻不容缓。在剽窃检查系统出现之前,都采用人工检查的方式,但由于人工检查效率低下,只能采取抽查论文的方式,一般只有当论文评审人员曾经看到过被抄袭文章,才会发现论文抄袭行为。找到一种高效的论文}J窃检查技术与方法,不仅能有效地发现有抄袭现象的论文,还能有效遏制论文到窃现象。
1.2前期工作
在前期工作中,我们也分别提出了基于字符串匹配和词频统计的的论文剽窃检查算法,并对其性能做了分析。
1.2.1基于元搜索引擎的论文剿窃检查算法
我们根据字符串匹配的文本相似度比较方法,设计了基于元搜索引擎的论文剽窃检查算法,算法利用互联网搜索引擎作为备选比较对象,对论文进行剽窃
1.文章分段
算法首先对输入的文章进行预处理,将文章拆分成多个段落,作为待检对象,这里需要考虑文章的分段策略。如上一章所述,通常情况下有三种分段方式,一种是将这篇文章作为一个分段,另一种是将每个词语作为一个分段,还有一种是将多个词语组合作为一个分段。
首先,第一种分段方式是不可取的。考虑到下一环节中我们需要将分段作为关键字,通过搜索引擎查找候选对象,虽然在查找候选对象时,我们仅需要考虑网络的延迟时间,而可以忽略搜索引擎的查询处理时间,但一般搜索引擎通过GET方式,利用URL传递关键字,最长只能达到2K字节,即使通过POST方式传递数据,一般也有最大数据量的限制,并不能满足所有文章的需求。另外,假设一篇文章能够作为整个关键字,由于搜索引擎并不是对所有词进行索引的,可能查找出来的结果与文章相差非常远,而原本可能抄袭的文章却不在候选对象中。
第二种分段方式是完全没有意义的,同样不可取。如果按照第二种方式每个词分一段的话,从搜索引擎中搜出的结果中必然包含该分段,并且每个词可能出现在不同类型的文档中,这样产生的候选对象就完全没有鉴别意义了。
第三章 基于论文语义...............30-32
3.1 剽窃检查系统............... 30-31
3.2 剽窃检查流程............... 31
3.2.1 论文结构............... 31
3.2.2 互联网信息............... 31
3.2.3 候选集查找...............31
3.2.4 相对单元...............31
3.3 本章小结............... 31-32
第四章 语义剽窃检查系统............... 32-41
4.1 基于论文结构语义............... 33-36
4.1.1 论文结构............... 33-34
4.1.2 论文结构本...............34-36
4.1.3 基于本体的............... 36
4.1.4 基于本体的............... 36
4.2 基于相对单元密度............... 36-40
4.2.1 相对单元............... 37-38
4.2.2 基于相对单元............... 38-39
4.2.3 基于相对单元............... 39-40
4.3 系统开发环境与技术............... 40
4.4 本章小结............... 40-41
第五章 性能分析............... 41-45
5.1 剽窃检查...............41-43
5.1.1 正确率和召回............... 41-42
5.1.2 时间复杂度............... 42-43
5.2 测试环境............... 43
5.3 测试用例............... 43
5.4 测试结果............... 43-44
5.5 本章小结............... 44-45
总结
近年来,随着互联网技术的飞速发展和网络数据库资源的日益丰富,论文信息的获取越来越便利。科研人员可以很方便的检索到各种需要的学术论文,协助研究工作。但与此同时,这也方便了论文的抄袭,抄袭者只需进行简单的复制粘贴即可将他人的论文内容占为己有。学术领域的论文剽窃行为愈演愈烈,不仅不利于科学技术的发展,而且对社会道德价值也会产生一定的影响。在我国,论文剽窃行为已经变得非常严重,国内新闻媒体屡屡出现关于各知名高校教授或者学生剽窃论文的报道。论文窃行为的存在,严重影响了我国崇高学术形象的塑造以及各大高校高素质人才的培养,论文剿窃检查的需求及相应系统的要求更是与日俱增。
本文对比了国内外主流的文本复制检测技术,详细介绍了文本复制检测技术的历史和发展,以及主要检测技术的思想和算法,并总结了面向领域的语义本体技术。本文还介绍了本课题的前期工作,在前期工作中,我们根据主流的复制检测技术,设计了基于元搜索引擎的论文到窃检查算法,在缺乏本地论文库支持的情况下有效利用互联网搜索引擎对论文进行剽窃检查,随后,我们又讨论了相关频率模型在论文剽窃检查中应用的优缺点,并改进了其缺陷,在此基础上设计了基于词频统计的论文票(窃检查算法。