第1章抄袭识别概述
1.1抄袭识别的研究背景
近些年来,学术道德已成为人们讨论的焦点问题之一,“学术腐败”、“学术票窃”、“学术作假”、“学术不端”等词经常充斥报刊和网络。
目前在国内外,文档抄袭行为已不罕见,据湖北电大开放学院2006年春季毕业论文审查统计川,法学、教育管理、行政管理三个专业(本科)的平均抄袭率分别为40%, 17%、21},各专业抄袭比例最大的分别是80%、33%、77%。论文抄袭现象之严重,由此可见一斑。
本文作者初次访问学术批评网和新语丝就找到学术同行检举的抄袭案例45例。其中,有期刊论文抄袭图书章节、期刊论文、论文集、报纸、外文文献(直译)、学位论文的,有学位论文抄袭学位论文、期刊论文的,有图书抄袭期刊论文等等;有自抄,有一稿多投,有直译,有拼凑抄袭,有片断抄袭,有完全抄袭;按照中国期刊网的十大专辑分,这些涉嫌抄袭文章涉及文史哲、经济与管理、农业、电子技术及信息科学、医药卫生、政治军事与法律、理工C(机电航空交通水利建筑能源)共七个大类,由此可见,抄袭不只是某一学科的问题,各个学科都有存在,其影响是严重的,应该引起整个学术界的重视。
针对上述背景下论文抄袭问题比较严重的情况,本文的研究课题提出了利用论文多层次特征属性的相似度计算来比较文档间的相似情况,然后利用无重复最长公共子串的求解算法和基于分词的无重复最长公共子串求解算法进行相似文本比较,求出“相似内容”生成相似报告,从而实现抄袭识别的目标。
1.2抄袭的相关概念及分类
1.2.1抄袭的相关概念
抄袭:指的是将原始资料的信息、观点和句子直接用于自己的文章当中而不做标注。它是一种说谎、欺骗、偷窃的行为。
票窃((plagiarism)是指把别人作品的主要观点、论据以及主要内容和情节引入自己的作品中,并不标明出处,又试图掩盖抄袭的意图,在作品中或多或少添加减少一些不必要的细节,但作品整体上看来与被票」窃之作没有实质性的区别。
在著作法中,国家版权局将抄袭、票窃视为同一概念,是指“将他人作品或者作品的片段窃为己有”。从抄袭的形式看,有原封不动或者基本原封不动地复制他人作品的行为,也有经改头换面后将他人受著作权保护的独创成份窃为己有的行为,前者在著作权执法领域被称为低级抄袭,后者被称为高级抄袭。
因此,为介绍、评论某一作品或者说明某一问题引用他人己发表的作品时,任何一句不是本人的话、不是本人原创的观点,都必须在论文内标出该文章的作者、在书中的页码以及该书出版的年代,并在文章参考文献中标注,以方便他人查看,即《著作权法》中所指的合理引用。
反抄袭服务网站turnitin对票(窃行为有清晰的界定1)把别人的作品当成自己的交上来;2)拷贝别人的句子或观点,却没有说明;3)在引用的话上没有打引号;4)对于所引材料的来源提供了错误的信息;5)拷贝原文的结构,改动了其中的字词,却没有说明;6)如果大量拷贝其他人的句子和观点构成文章的大部分内容,那么,无论有没有说明,都被视作票」窃。
Turnitin的MSP功能中,若被审核作业连续4-5个字一样算copyo 30%以下是绿色;过30%是黄色,再多就是红色的。
本文将票」窃与抄袭视为同一概念,参照Turnitin网站定义抄袭如下:
(1)当文本内容相似程度超过30%且参考文献中没有引用相似文档即视作抄袭;
(2)当文本内容相似程度超过50%,无论有没有引用相似文档,都视作抄袭。
1.2.2抄袭的种类
抄袭,不仅仅意味着原封不动地照搬,还包括对原作的移位变换、同义词替换以及改变说法重述等方式。
从抄袭内容形式分,理论界将抄袭分为四一是对原作品毫无改动的抄袭;二是对原作品有所改动的抄袭;三是自己对自己作品抄袭;四是无意识的抄袭。
从文档复制检测技术层面上分,抄袭分为程序代码抄袭和自然语言文本抄袭。相对于计算机程序有严格的形式化语法、结构信息清晰并容易获取的特点,自然语言文本不受形式化语法限制、含义模糊且结构特征一般不明显〔s1,所以自然语言文本抄袭识别相对更难一些。
1.3抄袭识别的研究现状
1.3.1国外的研究现状
国外从20世纪70年代初,就开始有研究防止程序抄袭的软件,但直至1991年第一个自然语言文本抄袭识别软件WordCheck才诞生。
现有的自然语言文本复制检测系统主要采用的是基于字符串比较和词频统计两种方法。基于字符串比较的方法也称为基于语法的方法,这类方法都要求从文档中
第3章 抄袭识别实现............ 29-52
3.1 中文分词............ 29-32
3.1.1 中文分词方法............ 29-30
3.1.2 现有的分词系............ 30-32
1、ChineseTokeni............ 30
2、雨痕分词组件............ 30-31
3、计算所汉语词法............ 31
4、KTDictSeg............ 31-32
5、CSW中文分词............ 32
3.1.3 本文分词............ 32
3.2 文本相似度............ 32-43
3.2.1 文本相似度............ 33
3.2.2 计算文本相似度............ 33-43
1、基于字符匹配的............ 34-37
2、基于集合模型的相似............ 37-39
3、基于向量空间模型的............ 39-41
4、基于N-gram的相似度............ 41-42
5、多层次特征融合型............ 42-43
3.3 文本比较............ 43-51
3.3.1 相关背景............ 44
3.3.2 相关概念............ 44-46
3.3.3 求所有公共子............ 46-47
3.3.4 无重复最长公共子串............ 47-49
3.3.5 基于分词的无重复最............ 49-51
3.4 本章小结............ 51-52
第4章 汉语文本抄袭识别系统............ 52-63
4.1 汉语文本抄袭识别系............52-55
4.1.1 文档注册............ 52-53
4.1.2 分词模块............ 53-54
4.1.3 抄袭识别模块............ 54-55
4.1.4 查询模块............ 55
4.1.5 后台维护模块............ 55
4.2 知识库的构建............ 55-58
4.2.1 同义词词表建立............ 55-57
4.2.2 分类表的建立............ 57-58
4.2.3 停用词词典的构建............ 58
4.3 系统及其实现流程的介绍............ 58-62
总结与展望
文档复制检测技术能够自动检测出数字文档间的重叠信息,它是保护知识产权和提高信息检索效率的一种有力手段。针对文档复制检测技术的具体一类—抄袭识别,它是提高学术论文质量、净化学术环境的一种重要措施。
本文在详细分析了现有文档复制检测原形体系、抄袭识别工具的功能、特点基础上,解决了中文文本的相似度计量、定位相似内容等难点问题,设计并实现了一个面向学术期刊论文的汉语文本抄袭识别原型系统。