图片与文本过滤技术在信息监控中的计算机应用研究

论文价格:免费 论文用途:其他 编辑:硕博论文网 点击次数:
论文字数:35542 论文编号:sb2019041914415025925 日期:2019-05-12 来源:硕博论文网
本文是一篇计算机论文,

第 1 章  绪论

1.1  研究背景和意义
1.1.1  研究背景
本课题为导师指导下自选,主要是基于图片分类过滤和文本分类过滤技术,同时实现图片与文本不良信息的监控过滤,属于理论研究与应用相结合的课题。
21 世纪是信息时代,随着互联网的迅速发展,移动互联网水平也得到了显著的提高,现在的信息科技正在逐渐的加速影响并改变着传统的通讯方式,提高了人们沟通的效率,实现了沟通方式多元化,提升了生活水平。与此同时,多元化多种类的信息发布工具也应运而生,如短信、微博、彩信、QQ、微信等均被广泛应用。它们具有很多优点如操作便捷,即时迅速等。其中,除短信之外的其它工具都可以同时携带图片信息和文本信息,从而使信息传播的载体呈现多样化,带给人们更好的视觉体验和获取信息的效率,从而得到广泛应用。然而,由于信息来源的多样化与随意性,其所携带的内容往往包含有不良的图片与文本信息。为此,必须采用基于内容的信息过滤手段,对图片与文本内容进行识别、提取、分析,实现不良信息的监测过滤。
传统的信息监控分析模式,一般是基于软件自动监测加人工审核来实现,其在响应速度、处理效率、人工成本等方面存在先天缺陷。现代自动监测分析技术主要是基于各种机器学习算法,可以较好地解决传统模式的问题但是面对如今更为复杂的海量信息以及特定的应用场景,它们在成本和性能方面也往往难以令人满意。此外,计算环境和自然语言处理技术的不断完善,为信息自动检测与过滤技术的深入研究与应用奠定了良好的基础。
1.1.2  研究意义
随着微博、彩信、QQ、微信等多元化信息发布工具被广泛应用,信息来源日益多样与随意,其所携带的内容往往包含有不良的图片与文本信息,例如涉黄、涉毒、涉赌、涉恐等信息。因此,研究基于内容的信息过滤方法与技术,对图片与文本内容进行识别、提取、分析,实现不良信息的监测过滤,成为当前研究热点之一。
...........................

1.2  国内外研究现状
1.2.1  图片内容识别研究现状
不良图片识别是计算机图像识别领域的一个研究热点问题,世界各国的很多学者提出了不同的解决方案。主要应用较多的方法有线性分类器,决策树,深度学习等。在深度学习取得巨大进展之前,不良图片识别方法一般基于颜色和使用图像特征提取算法如梯度方向直方图(HOG,Histogram of Oriented Gradients)、尺 度 不 变 特 征 变 换 (SIFT,Scale-invariant  feature  transform) 、 加 速 稳 健 特 征(SURF,Speeded Up Robust Features)等提取的图像特征,使用分类方法对其进行分类。例如:基于肤色区域和人体结构几何特征检测的专用分类方法,该方法能够在存在大范围阴影和皮肤颜色的情况下有效识别裸体图像[1];基于形状识别和模糊分类的裸体图像识别方法[2];使用基于肤色的 SVM(Support Vector Machine)模型对色情敏感图像过滤的方法,但其仅考虑了图像中的颜色特征,而可望有助于提高识别性能的纹理、形状等特征却没有考虑,性能仍有待于进一步改进[3];基于 Daubechies 小波变换和中心矩/颜色直方图以及图像特征库匹配的敏感图像识别方法,该方法的主要不足在于,对作为判断标准的图像特征库的依赖性,而实际中难以形成非常有效的包含各种敏感图像特征的图像特征库。
总体来说,在大规模应用深度学习之前的相关研究成果,通常仅针对图像的颜色、局部轮廓等部分特征进行分析。若所需分类的图片场景复杂、图片中物体较多的话,这些浅层特征一般不能很好地表达图片的信息,例如监控视频中人脸匹配问题。而且一种对于特定的图像识别任务性能表现不错的方法,对于其他图片识别任务往往不能取得相同的性能表现。例如使用 HOG 取图像特征结合 SVM的方法识别道路中的行人取得了不错的效果,但其应用到玩具老鼠与真老鼠的识别任务中就不能取得很好的效果。因此传统方法存在识别任务中图片复杂性高时识别精度不足和对于一个新的分类任务不能简单套用已有方法,需要精心选择测试特征提取算法和分类算法的问题.
.........................

第 2 章  相关理论与技术

2.1  图片内容识别
2.1.1  概述
图像识别指利用信息处理与计算机技术,对图像进行处理、分析和理解的过程,它是近 20 年发展起来的一门新兴技术科学。近几年来深度学习技术在越来越多的领域取得了突破性的进展。而其中 CNN 受生物视觉系统启发,将深度学习思想引入到神经网络之中,在图像识别领域其性能远远超出传统方法。
在传统方法中图像的分类与识别一般分为两步,首先使用特征提取算法提取图片特征,然后再使用分类算法对提取出的特征进行分类。在实际应用中,一般使用基于局部特征描述子的方式提取图像特征,如 HOG、SIFT 等;使用 SVM、随机森林、XGBoost(eXtreme Gradient Boosting)等分类算法进行分类。这些方法具有坚实的理论基础,能够针对具体问题对算法进行有效调整;但这些模型所使用的特征缺少图像整体空间结构信息,识别性能较差。尤其是在小图像识别方面,由于图像较小,图像内物体及场景边界较为模糊,其能够提取的特征描述子有限,最终生成的特征向量可辨别能力差,性能难以大幅提升。
CNN 是近几年兴起的方法,主要特点有卷积神经网络中卷积层的滤波器是各个位置共享的,因而可以大大降低参数的规模,这对防止模型过于复杂是非常有益的。另一方面,卷积操作可以获取图像的空间信息,因而特别适合于对图像进行表达。此外,由于 CNN 存在大量的数据密集型运算如卷积、矩阵运算,这些运算可以在 GPU 上运行,GPU 的硬件特点决定,其对于数据密集型运算的表现远远好于 CPU。
CNN 在图片识别方面比其它算法分类性能出色。本文的图片识别要求识别速度快,识别准确率高,不良图片查全率高,因此,本文使用 CNN 进行图像分类。
............................

2.2  文本内容识别
2.2.1  概述
文本分类是自然语言处理(NLP,Natural Language Processing))领域的一项经典任务,一般而言文本分类算法分为两步,首先使用词嵌入算法(如 Word2vec、Glove)将句子中的词语编码为向量,然后使用分类算法(如:SVM、随机森林、BP 神经网络)对编码好的句子段落进行分类。
对于自然语言,由于其本身的特点,使其将其表示为一种合理的形式对分类任务而言至关重要。这种词嵌入算法关键是要最大限度的提取语言本身的信息。Word2vec 是一种应用十分广泛的词嵌入方法,在 NLP 领域的大多数任务中均能取得不错的效果。本文采用 Word2vec 对短信数据进行词嵌入操作。
对第二步的分类算法,有很多算法选择但由于本文最终要将该模型应用于实际,在实际需求中由于对文本的分类判断的速度要求非常高,BP 神经网络由于其主要运算是矩阵运算,可以通过 GPU 对其进行加速。因此本文采用 BP 神经网络作为分类器。
2.2.2 BP 神经网络
BP 神经网络的基本原理: 对于固定基函数的线性组合的回归和分类模型,在实际应用中会遇见维度灾难问题,即随着维度的增加,基函数的数量几何倍递增,因此可以尝试对固定的基函数进行学习调整。BP 神经网络先固定基函数的数量,同时允许基函数可调节,即基函数参数化。它与传统固定基函数模型相比,在相同泛化能力的前提下,BP 神经网络会相对比较简洁,但是代价就是它的目标函数不再是凸函数,局部最优点大概率不是全局最优点。
................................
第 3 章  核心算法的分析与验证 ................................... 21
3.1  基于 CNN 的图像分类算法 ............................... 21
3.1.1  算法分析 ................................. 21
3.1.2  算法测试 .......................... 25
第 4 章  应用系统设计 ............................. 34
4.1  系统功能需求 ............................... 34
4.2  系统总体设计 ................... 36
第 5 章  系统实现 ................................ 51
5.1  系统平台概况 .......................... 51
5.1.1  硬件平台 ............................... 51
5.1.2  软件平台 ........................... 51

第 5 章  系统实现

5.1 应用测试效果
通过前面章节的研究,本文提出了一种 ResNet50 的图片识别应用和 BP 神经网络+Word2vec 的文本识别应用,该应用面向电信系统的即时通信业务短信息服务,致力于解决日益泛滥的不良文本信息问题。本文给出了此应用系统的整体方案设计,在本章对系统进行了实现并对主要可视化功能进行了展示。后面我们对系统的主要功能进行了相应的功能测试,检测系统可能出现的问题并检验应用的可行性和有效性。
基于上一章系统设计中的核心功能和主要功能需求,选择合适的测试方法和工具,分别对以下功能进行了相关测试: 
1、图片识别功能
使用实际的手机报,人为加入含有不良内容的图片,为了更好的测试系统的识别性能,所加入的不良图片为重新从海外网站上搜集。在有限数据的情况下(约 1 千条数据)系统的测试结果与第三章中图片分类模型的测试结果基本一致。系统对一千张图片进行识别,耗时 20.3 秒。系统运行期间未收到手机报中出现不良图片的用户反馈信息。系统达到了预期需求。部分测试案例如图 5.10 所示。

.......................

6 章  总结与展望

6.1  总结
本文首先深入研究分析了常用的图片信息和文本信息监控分析算法,以此为基础,选用了 ResNet50 模型来实现图片信息的自动监控分析,提出了一种基于 BP 神经网络+Word2vec 的文本分类模型来实现文本信息的自动监控分析,并使用实际数据对它们进行了有效性验证。之后,为了验证上述研究成果的可用性,在电信手机报信息发布系统中,针对不良信息的分析与监控,设计实现了相关功能模块。目前,本课题应用已部署上线并取得了良好的效果。
本文主要创新与特色:
1、通过实验对比发现 ResNet50 模型和 VGG19 模型在不良图片识别中识别效果均非常出色,其中 ResNet50 模型识别效果好于 VGG19 模型,完全解决了传统方法在面对复杂识别任务时性能落后的问题,并将 ResNet50 模型应用到实际系统中,实现了图片信息的自动监控分析。
2、实现了一种基于 BP 神经网络+Word2vec 的文本识别模型,其方便采用GPU 并行化计算、占用计算资源较少、计算成本较低、识别性能良好的特点非常适合实际应用场景,本文在实际应用中也验证了这一点。
3、根据现有文献检索,国内电信行业未见与本文功能类似的电信手机报信息发布系统。
参考文献(略)

如果您有论文相关需求,可以通过下面的方式联系我们
点击联系客服
QQ 1429724474 电话 18964107217