第一章 绪论
1.1 研究背景
随着社会信息化的不断发展,新的商业模式和经济行为方式层出不迭,人类的生活习惯和消费方式发生了巨大的改变。网民在网上表达自己的观点越来越便利,用户创造内容,分享内容的网络信息模式已经普及,每个人都可以自由的在网络上发布信息,也可以自由的选择所需的信息。随着网络信息数量的爆炸式增长,网上充斥着海量的文本信息,从这些纷繁的信息中准确获得有效信息的难度越来越大。因此,必须利用计算机技术进行网络数据分析,以获得有价值的信息。在利用计算机分析评论文本数据时,对文本情感倾向进行分析并提取潜在信息,在许多领域都有非常重要的应用价值。在电子商务领域,消费者通过评论发表自己对商品的意见,商家可以深入挖掘消费者的喜好,对商品进行优化,消费者可以前瞻性地借鉴这些观点作为购物参考依据。在舆论监督方面,通过吸收一些敏感的情感词汇,政府可以快速发现可能出现的负面舆情,并及时采取措施引导舆论,消除负面與情可能带来的不良影响。因此,研究如何从文本信息中获取用户的情感倾向很有必要。
随着经济的发展,人均可支配收入的提高,网络购物用户规模逐年扩大,根据中商产业研究院的统计显示,在中国,网络购物用户规模在逐年递增。截至 2020 年 12 月,我国网络购物用户规模达 7.82 亿,较 2020 年 3 月增长 7215 万,占网民整体的 79.1%。如图 1.1 所示。

计算机论文怎么写
1.2 国内外研究现状
1.2.1 情感分析技术的发展
情感分析的概念在 2003 年正式出现,Nasukawa 等人采用语义词典及句法分析等自然语言处理领域的技术手段来准确判断一个文本中有关特定主题的情感倾向[1]。起初,文本情感分析的研究主要侧重于带有情感色彩的词上[2]。比如说,“美”这样的词往往带有褒扬的感情色彩,而“丑”这样的词往往带有贬斥的感情色彩。随着研究的深入,对情感分析的研究也更加复杂。根据处理文本的粒度来进行分类,文本的情感分析分为词语、句子、篇章级情感分析三个研究层次[3]。
基于情感词典的方法是指根据情感词典所提供的情感词的情感极性进行情感极性的划分[4]。对于情感词典的构建,国外最早的是SentiWordNet情感词典,中文情感词典主要由NTUSD、HowNet、情感词汇本体库[5]组成。Cai Y 等人构建了一种基于特定域的情感词典来解决情感词存在多义的问题[6];柳位平等人建立了一个用于专一领域情感词识别的基础情感词典并提出了一种中文情感词语的情感权值计算方法,有效地改善和提高了情感分类效果[7];Cai X H等人通过使用 Apriori 算法对基于上下文的情感歧义词进行扩展,通过构造的情感歧义词词典来实现细粒度的情感分析[8];赵妍妍等人提出一种面向微博的大规模情感词典的方法,解决了中文情感词典的数据量少,口语化词语少的问题[9];Xu 等人构造了一个包含基本情感词、领域情感词和多义情感词的扩展情感词典并设计了情感评分规则[10]。刘亚桥等用 TF-IDF 训练结果词集及人工摄影情感基础词集对 Word2Vec 训练结果集进行领域重要程度修正,和HowNet 情感词典合并形成摄影领域情感词典[11]。王召义等采用逆向思维,从领域情感词典结构设计方面入手,以“实体—属性—情感词”的多元词对为主线提出了一种新的中文领域情感词典构建方法[12]。基于情感词典的方法优点在于易于分析和理解,情感分类效果比较准确。但基于情感词典的情感分类方法依赖于情感词典的构建,在网络新词层出不穷的今天,需要对情感词典不断的进行扩充才能满足需要;同时,这种方法在跨领域和跨语言中的使用效果不是很理想,还需要更多的研究。
.........................
第二章 情感分析相关理论基础
2.1 情感分析概述
情感是态度的一部分[42],情感是人们对事物的态度的反映。文本情感分析是自然语言处理的一个重要分支,它旨在通过处理和分析人们撰写或发表的文本,挖掘人们对某个事物或者社会事件的观点和情感倾向。
情感分析用于在文本中识别和提取观点。情感分析的应用很广泛,在各类购物网站,微博,视频网站弹幕和其他社交媒体中,可以直接提取获得大量表达意见的文本,这些信息文本往往包含着大量的情感倾向,通过一系列的手段,可以把这些非结构化的评论文本转换为结构化的数据,进一步细化为如商品、品牌、服务等主题。这些数据对于消费者进行商品挑选和商品意见反馈,企业进行营销策略制定,政府部门进行舆情监督等很有用。
情感分析一般是是通过互联网爬虫等技术手段来获取原始评论数据,如微博内容、豆瓣影评、视频网站弹幕、电商网站的评论等;文本情感分析流程如图 2.2 所示,其中,数据预处理是指数据清洗,去除噪声,常见的方法有去除无效字符和垃圾评论,统一数据的类别如统一为中文,用分词工具进行分词处理,去除停用词等等;特征提取常见的方法有词袋模型,N-gram 模型和 TF-IDF 模型等,基于深度学习方法的特征提取一般都是自动的;分类器输出得到文本的最终情感极性,常见的分类器方法有 SVM 和 k-近邻算法等。
........................
2.2 文本预处理相关技术
要对文本内容进行情感分析,首先要对语料进行预处理,把文本转化成能够让计算机正确理解的形式,为之后的处理任务做铺垫。本部分主要介绍了中文分词技术和常见的文本表示技术。
2.2.1 中文分词
从文字形式上来看,中文文本实际上就是由多个汉字组合而成的一个字符串,由此形成了词语、句子以及段落。在英文中,单词之间往往是由一个空格作为分隔符来分开的,而中文文本汉字之间是没有明确的分隔符的,因此对于处理中文文本,准确的进行分词处理是一项最基本也是最重要的工作。
中文分词就是通过某种方法将句子切分成一个一个单独的词。在中文中,分词工作的主要困难就是歧义识别和新词识别[43]。歧义就是指对同一个待切分字符串存在多个分词结果,例如:“这种地方特产物美价廉”,可以切分为“这种/地方/特产/物美价廉”,也可以切分为“这/种地/方特/产物/美/价廉”。显然,第二种切分方法是不正确的。
对于现代中文的分词,另一个重要的关键问题就是未登录词的识别问题[44]。未登录词就是指的是新词、网络用语、缩略语、人名、简称等没有被词典收录的词,这类词的实际使用频率很高,处理起来却又很困难,一个好的分词系统要能准确地识别新词。
目前,中文分词的主要方法包括基于词典的分词算法和基于统计的分词算法。基于词典的分词算法也称作字符串匹配分词算法,基于词典的分词算法实现简单,实用性比较强。20 世纪 80 年代,哈工大的王晓龙博士就提出了“最少次数”的分词理论并且将该方法进行了理论化[45]。正向最大、逆向最大、双向匹配等匹配策略都是常见的基于词典的分词算法中用到的匹配策略。基于词典的分词算法虽然简单,但是它没有考虑到词语所在的上下文,忽略了语义。
基于统计的分词算法就是计算相邻出现的各个字的之间的紧密程度,相邻的字同时出现的次数越多, 就越有可能构成一个词。实际使用中,主要用到的模型有最大熵模型、隐马尔可夫模型(HMM)、深度学习等模型等[46]。20 世纪 90 年代,清华大学的郭进博士通过对统计语言模型的深入研究,有效解决分词二义性问题,提高了汉语分词的精确度[47]。基于统计的分词算法,不仅考虑了词语出现的频率,也考虑到了词语所在的上下文,具有良好的学习能力。
..............................
第三章 文本特征提取方法的改进................. 18
3.1 传统的特征提取方法.............................. 18
3.1.1 传统的特征提取方法........................................... 18
3.1.2 传统特征提取方法的不足................................... 21
第四章 基于情感分析的评论挖掘系统设计.......................... 30
4.1 系统需求分析................................................ 30
4.1.1 功能需求................................... 30
4.1.2 性能需求......................................... 31
第五章 基于情感分析的评论挖掘系统实现与测试...............................43
5.1 系统实现..............................................43
5.1.1 开发环境..................................... 43
5.1.2 数据获取..................................... 44
第五章 基于情感分析的评论挖掘系统实现与测试
5.1 系统实现
本文总体流程是先从互联网中爬取商品评论文本,然后进行预处理,预处理之后提取商品特征,然后使用分类器训练这些商品特征来对评论进行分类。系统架构图如图 5.1 所示。

计算机论文参考
..........................
第六章 总结与展望
6.1 总结
本文建立了一个基于情感分析的评论挖掘系统,在设计完成本系统的过程中,主要研究了评论信息的获取和处理,垃圾评论的过滤,特征提取方法的改进,情感分析分类器的训练等内容。在研究的过程中,本文以手机这一商品为例,通过爬取京东手机评论信息,利用 SVM分类器对商品评论进行情感分析。本文主要完成的工作以及研究成果如下:
1.总结了情感分析领域的研究概况,介绍了情感分析的主要步骤,包括文本预处理、文本表示、特征提取、文本分类。在数据获取这一块,本文使用了多线程爬虫技术,提高了数据获取的效率。
2.对垃圾评论进行了过滤,首先根据网络垃圾评论的特点和评论特征设计评估函数,再对数据采集得到的语料集进行文本分类,过滤掉垃圾评论。
3.对商品特征提取方法做出了改进,首先通过高频名词和关联规则构建种子特征词集,然后采用神经网络语言模型进行词向量训练,再通过计算向量间余弦相似度对特征词集进行扩充,最后经人工分类后得到完整的商品特征词典。并与经典的算法进行实验比较,从准确率、召回率、F1 值三方面指标来看,本文提出算法都是最优。
4.本文以手机的这一商品为例进行情感分析研究,对朴素贝叶斯、k-近邻算法和支持向量机三个分类器和进行对比实验,选出最优分类器。
5.设计实现了一个基于情感分析的商品评论挖掘系统,经过测试,系统准确率达到了85%,可以较为准确的对商品评论进行特征级别的情感分析。
参考文献(略)