鉴于语义体会论文相似度探析

论文价格:免费 论文用途:其他 编辑:mjt1985 点击次数:96
论文字数:49600 论文编号:sb201211171211424271 日期:2012-11-17 来源:硕博论文网

第1章绪论

    伴着信息技术、计算机技术的发展,信息处十一个“爆炸”时期,信息量非常之大,覆盖范围非常之广,信息的形式多种多样,但是还是以文本信息居多。这一方面为文本信息与文献资料的检索提供了便利;但是另一方面也给论文抄袭票窃等学术不端行为的发生创造了一定的条件。目前,大学中的各种论文整体质量很高,学术发展相对较快,但是仍然存在论文抄袭等现象,这是一个事实,是由多方面原因造成。

1.1本文选题背景与研究意义

    在当今大学中,毕业论文质量有下降的趋势,缺乏原创、没有自己独特的创新,只是在原来的基础上进行总结归纳,拼拼凑凑的复制粘贴是普遍现象,抄袭甚至造假也不乏其例。为了防止这种现象的发生,结合相似度研究,把论文相似度研究应用十论文检测显得非常有必要,这是我们提高论文水平,减少论文抄袭票窃等学术不端行为发生的重要手段。为了深入了解上述各种现象的出现,首先要了解其出现的背景。
    1、信息科学的发展。在信息化社会中,随着互联网的飞速发展,人们的交流十分方便,资料的传输和浏览十分迅速及时,这对人们的生活产生了深刻的变化:一方面给人们带来了便利,拓宽了人们的视野,让人们更加了解国内外的发展情况;另一反面也产生了一定的负面影响,有些人们利用互联网发布一些谣言,甚至进行一些违法犯罪活动。其中在论文写作过程中,造假、抄袭、票」窃他人学术成果等学术不端行为屡有发生,抄袭互联网上面已有信息或者别人已发表的论文,成段的不加修改的复制粘贴到自己的论文中,这是一种学术不端行为,这使得原本是学术活动活跃的高校等学术科研领域变成了学术不端的一个来源之地。
    2,论文的集中性与对待论文的态度。中国每年待毕业的大学生、研究生很多,相应的毕业论文也是很多的,大部分人能独立完成自己的论文,但是有小部分人在对待毕业论文这个问题态度还不够严谨,由十互联网的发展,有的人直接从网上数据库中下载已有论文,成段的添加到自己的论文中,或者是打乱段落的序,或者是添加几句或者删除几句凑合成自己的论文;把主动句改为被动句,被动句改为主动句,深奥难‘懂的学术语言改成了白话语言;有的人直接整合几篇相关的文章成为一篇自己的论文,在论文中没有一点自己的观点,没有一点创新之处;更可怕的是有小数人直接在网上找到一篇相关论文不加修改的变成自己的论文。由十毕业论文的数目之多,每一篇论文的字数之多,每一篇论文引用的参考文献之多,学生不会全部用自己的语言写出一篇完整的论文,这势必存在论文抄袭现象。
    3、人情环节的影响。近几年来,各个高校在论文(尤其是研究生论文)开题、自审、答辩等环节设置了道道关卡,尤其是自审,自审指的是将学位论文的作者和导师姓名隐去,送给校外的同行专家评审,以此保证公正性,促进学术的发展,提高学生的素质。如果在自审中没通过,必须修改论文,修改好重新送审。这在一定程度上遏制论文抄袭等学术不端行为的发生,对学术的发展起到了重要作用,这是主要方面。但从另一方面讲,自审也是事在人为,虽然自审论文的作者和导师名字隐去了,但是自审的范围不广泛,校外自审的专家基本上固定,而目_许多专业的学术圈子通常很小,评审专家就算不知道作者和导师的名字,看看题目也能大致判断出自哪位同行的弟子之手,这样就会出现一个人情的问题,自审专家有时候也许会手下留情,如果这样就没有达到自审应有的效果。在论文答辩过程中,评审员基本上看看论文的组织结构、导论、结语以及创新之处,如果不深入到论文的整体,论文的是否抄袭、是否票」窃就很难看出来。
    4、社会与工作的压力。在当今激烈的社会竞争压力下,很多高校的毕业生抱有这样一种态度,考大学、考研究生只是他们的一个过渡,是想以后出去工作有个高的起点,他们是为工作而去考大学考研究生,因此他们没有深入去了解学术的发展,所以在毕业论文的这个环节他们有的人就投机取巧,去复制粘贴甚至抄袭票」窃别人的论文,然后拼凑成自己的论文。只有那些为了挖掘自己潜力的学生认认真真的研究自己的专业领域,在总结别人的研究成果上提出自己的创新。
    在当今工作压力的情况下,很多即将毕业的大学生把目光和精力重点放在找工作上,他们这时主要面临着两个问题:一边是找工作;一边是写论文。中国大学生与研究生数量之多造就了严重的就业压力,很多学生在工作和论文之间无法达到平衡,因此,很多学生把写论文的时间大部分用在找工作上面,为了不影响工作,他们怀着一颗“赌”的心理去写论文,在别人的论文成果上删删改改变成自己的论文,加之很多高校为了就业率问题,提高本校的名气,也放纵了论文抄袭票窃现象的发生。
    5、高校的论文门槛。很多高校的论文门槛很高,学位论文既要有大量的实验数据,又要有基础理论的研究,而这些内容的获取是一个长期的过程,有一定基础和意志力的学生才能完成,而对十那些自身素质相对欠缺的学生来说,选择这样的论文课题,只有通过一定的抄袭票」窃来完成论文。

 

第1章 绪论 9-17
    1.1 本文选题背景.............. 9-11
    1.2 国内外的研究..............  11-13
    1.3 本文的研究..............  13-14
    1.4 本文的内容..............  14-15
    1.5 本文的创新..............  15-17
第2章 文本相似度研究..............  17-23
    2.1 文本相似度..............  17-18
    2.2 文本相似度..............  18
    2.3 文本相似度..............  18-21
    2.4 文本相似度..............  21-23
第3章 语义相似度..............  23-35
    3.1 语义相似度..............  23-24
    3.2 语义相似度的计..............  24-25
    3.3 语义相似度计算..............  25-26
    3.4 语义相似度算法..............  26-34
        3.4.1 基于语义距离的..............  27-28
        3.4.2 基于《知网》的..............  28-34
    3.5 语义相似度.............. 34-35
第4章 语义相似度在论文..............  35-51
    4.1 词语相似度..............  35-36
    4.2 句子相似度..............  36-39
    4.3 段落相似度..............  39-41
    4.4 论文相似度..............  41-42
    4.5 相似度在论文..............  42-49
    4.6 小结..............  49-51


结论
    当前,相似度研究口益盛行,在实际运用中也发挥着重要的作用,随着各位学者对其研究的深入,各种相似度计算模型与算法被提出,为本文的相似度计算提供了很好的基础条件。
    本文主要介绍了两种相似度计算方法,一是文本相似度方法;二是语义相似度方法,这两种方法各有优缺点,文本相似度计算的速度快,适合大规模文本的处理,但是只注重字面上的相似;语义相似度从语义的角度来计算相似度,准确率提高了,但是计算的速度相对比较慢,系统开销比较大。
    为了综合两种相似度计算的优点,避免其在相似度计算中的缺点,本文在文本相似度算法的基础上引入了语义理解,并在论文检测中运用了基十《知网》的词语相似度计算,并在计算过程中引入了本体相似度算法中的语义密度因子,将相似度算法过渡到语义相似度算法上来,并在检测中把词语相似度逐步扩展到句子相似度、段落相似度与论文相似度。


 


QQ 1429724474 电话 18964107217