复杂工业过程中对数据挖掘方法的深入研究
导读:数据挖掘做为一门跨学科的技术,它融合了统计学、数据库技术、人工智能、机器学习、可视化技术等多个学科,以致不好严格区分它与这些众多学科之间的区别.由本站硕士论文中心整理。
第1章绪论
新需要推动新技术的诞生和发展。随着信息科学数据库技术应用规模、范围和l深度的不断扩大,使得拥有海量数据已为现实。可是在这些数据中直接对人们有意义(知识)的数据少之甚少,人们逐渐地希一望能够对这些数据进行深层次的挖掘和提取,发现隐藏在其中的规则,为人们提供更高层次的数据分析功能。工业系统所处的环境复杂多变,特别是复杂工业过程,控制困难一般是使用知识或智能控制方法,知识或规则的获取尤为重要。为了优化复杂工业过程操作,本文研究了数据挖掘新方法及其在复杂工业过程控制中的应用。
1.1复杂工业过程及其控制
复杂工业过程工艺和技术逐渐对复杂工业过程控制技术的要求越来越高。首先新的工艺技术需要相应的先进控制手段与之结合配套;其次,新的控制方法可以在原有工艺基础上,在不增加很多设备的情况下进行技术改造,进}fn达到提高产能和降低各种消耗的目的。任何复杂工业过程控制技术的改善,都会带来可观的经济和社会效益。因此众多的研究人员都尝试寻找各种新理论和新技术,以期对复杂工业过程进行有效的控制。
伴随着社会科学技术的逐渐进步,现实中市场竞争的加剧;社会上对自然资源的过渡消耗和依赖;使得民众对生活环境显得更加关注;使过程工业向大型化和综合化的复杂工业发展。因此许多工业系统的结构和功能口趋复杂繁琐。如化工、冶金、钢铁、石油等过程工业也在不断扩大它们的生产规模和品种,在现实中遇到的大量的技术问题和管理问题,过程工业系统已呈现出与简单过程控制不同的复杂工业过程所具有的新特征,有色金属熔吹炼过程就是很常见的复杂工业过程,如铜琉吹炼过程。
复杂工业过程控制有着许多新特点:系统结构复杂、数据形式多样、系统规模庞大繁杂、优化目标众多等。复杂工业过程中存在的明显行业特点,使得在解决此类问题时,要有新的思想和方法。计算机技术的快速发展,使得为解决复杂工业控制过程提供了有力的工具。
在国民经济和人民生活中,复杂工业过程控制系统所在的行业大多占重要地位,如化工、石油、电力、有色冶金和钢铁等行业。这些支柱行业往往代表一个国家的技术水平;同时这些核心行业的技术进步可以影响许多方面,如:能源节约、自然资源利用率、自然环境破坏等方面。因此,各国投入大量的人力物力研究开发复杂工业过程控制技术[}2}
复杂工业过程系统有着明显的行业特点。复杂工业过程控制通常应用十环境比较复杂恶劣b‘存在有危险的工厂场合,一般生产中断会造成较大损失,因}fn对抗干扰、可靠性和可利用率等指标有着较高要求,这一点明显有别十其它的自动化控制系统。
实现工业过程控制自动化是复杂工业过程控制的目标。在《火力发电厂热工自动化术语》DL/T701-1999标准中,将过程自动化简洁定义为:采用检测与控制系统对生产过程进行生产作业,以代替人工直接操作的措施。自从瓦特第一次利用自动控制技术,成功地控制了蒸汽机的转速,为人类带来了一次工业革命后,自动控制技术和自动控制理论一直主导着工业过程控制的发展进程[f2,3]。
控制方法及策略是复杂工业自动化过程控制的灵魂。20世纪末以来,自动控制理论和方法的主要发展和研究方向是人工智能机器技术的应用和普及发展。过程自动化控制方法已从传统经典控制(包括PID控制、串级控制、比值控制、前馈控制等)发展到了最优控制、自学习控制、自适应与自整定控制、非线性控制、多级递阶智能控制、专家控制、模糊逻辑控制、仿人智能控制、神经网络控制、基十模式识别的智能控制、多模变结构智能控制、混沌控制、鲁棒控制及基十可拓逻辑的智能控制等,可在很大程度上改进特定领域中过程控制的效果,来产生经济效益。在经济全球化的浪潮中,进一步加剧的市场竞争和资源短缺,先进控制策略和技术将会得到更加广泛的应用和发展。确定控制目标,综合运用各种先进的抓‘制方法是构成有效控制系统的绝佳途径。
计算机技术的普及和应用为复杂工业过程控制发展提供了有力的工具。工业调节控制装置或系统是过程自动化的中枢,其发展从较早的基地式调节器开始,经历了气动、电动单兀组合仪表到计算机直接数字控制系统(DDC),直到今口得到广泛应用的可编程控制器(PLC)、集散控制系统(DCS)系统、以及工业以太网(Industrial EtherNet)和现场总线控制系统(FCS)。后续发展起来的现场总线控制系统具有诸多优越性,如:更强大的系统功能、互操作性和功能分散性、安装及组态的简易性、较低的工程及运行维护成本和规模灵活性、更高的测量和控制精确度等诸多特点,显示出较强的实际应用力.
1.2数据挖掘的提出与发展
数据挖掘是发源十商业信息处理的一种知识抽取方法,是一个由多学科交叉成的研究领域,实际上,是一种新的商业信息处理技术,为了满足人们逐渐增长的需求,将对数据的处理,从低层次的联机查询操作,提高到分析预测、规则挖掘、聚类等高层次操作,从}fn来挖掘出数据集中隐藏的潜在知识规则,这些知识规则可以用来有效的指导高级商业商务活动过程。
数据挖掘是一项新技术和一个新学科,理论来源有多个方面。目前还没有形成数据挖掘的统一定义,数据挖掘的理论定义非常模糊,诸多定义取决十定义者的观点和背景。在一些文献中给出DM(Data Mining)的不同定义,在此介绍不同学者对数据挖掘的不同定义:
Fayyad给出的定义:
定义1-1数据挖掘是一个确定数据中有效、新颖和可能有用并目_最终能被理解模式的非平凡过程。
强调挖掘出的模式新颖,能被理解,非平凡是指不一定在数据集中封闭,可以是图形、树或其它形式。
Zekulin给出的定义为:
定义1-2数据挖掘是一个从大型数据库中提取以前未知的、可理解的和可执行的信息并用它来进行关键商业决策的过程。
强调挖掘出的模式是未知的,可理解和可执行的。
Ferruzza给出的定义为:定义1-3数据挖掘是在知识发现过程中辩识存在十数据中未知关系和模式的一些方法。
强调数据挖掘就是模式辩识。
Jonn给出的定义为:定义1-4数据挖掘是发现数据中有益模式的过程, 强调数据挖掘是有趣模式的辩识。
Parsaye给出的定义为:定义1-5数据挖掘是我们为那些未知的信息模式研究大型数据集的一个,决策支持过程,强调数据挖掘是未知模式的辩识,与定义1-3相同。
Mehta给出的定义为:
定义1-6数据挖掘是决策树、神经网络、规则推断、最近邻方法和遗传算法。
此定义主要强调数据挖掘是一些模式辩识算法的集合。
在信息技术快速发展的今天,数据爆炸一词已经广为流传。从海量数据中抽取“有用知识”的概念一出现,就受到各行各业的重视。从零售业到物流、医疗、证卷、银行、互联网、银行、信息、资源勘探、企业管理、自动控制,甚至到美国的NBA球员的训练和比赛,以及到文学作品的风格鉴别等都可以找到数据挖掘技术的踪影。总体看来,数据挖掘呈现出一个快速蓬勃发展的局面。
新的需求推动新的发明,需求是发明的推动力。伴随着计算机的口渐普及和数据库技术的口渐成熟,使数据的获取和存储变得不再困难,目_数据量以海量的速度增长,人们迫切需要将这些数据转换成为有用的知识,可是已有的技术对此类问题显得无能为力,因此,由计算机硬件和软件的发展和需求的推动,使得数据挖掘技术随之诞生。数据挖掘做为一门跨学科的技术,它融合了统计学、数据库技术、人工智能、机器学习、可视化技术等多个学科,以致不好严格区分它与这些众多学科之间的区别。
从数据挖掘一词诞生起,数据挖掘一词与知识发现有着紧密的联系。“数据挖掘”曾作为“数据库中的知识发现”的一个部分,但是,现在一般对二者不加严格的区分。在第11届国际人工智能联合会议的专题研讨会上(底特律(美国),1989年),“数据库中的知识发现”一词被首次提出,随后相继举行了数次有关“知识发现与数据挖掘”的国际学术会议。在第一届知识发现和数据挖掘国际学术会议上(蒙特利尔(加拿大)1995年),“数据挖掘”的概念由Usama Fayyad首次被提出。从此以后,每年召开一次数据挖掘技术研究国际会议。《知识发现与数据挖掘》专题杂志创刊(1997年)[5;7],标志着数据挖掘这一新兴学科走上了真正的发展之路。
数据挖掘这一新兴学科出现后,众多的学者发表研究论文,成立有关的学术组织及其召开相关的学术研讨会议,为推动数据挖掘的发展作出了巨大的贡献。一些专门从事数据挖掘挖掘软件的公司和机构,也相继开发和发布了一些数据挖掘的软件产品,如DB Miner(Simon Fraser), Clementine(SPSS Inc.), Enterprise Miner(SAS Institute), IntelligentMiner(IBM), Silicon Graphics Inc(IBM)。在国内,从1993年开始,国家自然科学基金首次开始支持该领域的研究项目。目前国内从事数据挖掘的人员主要集中在大学、研究所和商业咨询公司,其研究方向和侧重点主要集中十数据挖掘算法、数据挖掘的实际应用。在我国数据挖掘应用尚处十尚未成熟的萌芽阶段,普通企业大规模地运用数据挖掘技术尚不普及,个别企业或部门仅零星地运用数据挖掘技术,没有形成强有力的整体力量.
1.3现有的常用数据挖掘方法
数据挖掘做为一门由多学科交叉}fn成的新兴的学科,它融合了统计学(Statics)、机器学习理论(Machine Learning Theory)、人工智能(Artificial Intelligence)、数据库理论技术(Database Theory)、知识工程(Knowledge Engineering)、信息检索(Information Retrieval) ,面I aJ对象方法(Obj ect-Oriented Method) ,高性能i}一算(High-Performance Computing)、数据可视化(Data Visualization)等理论知识,结合了相关的最新研究成果。在经历了近}o年的发展和I研究后,其产生了许多新的概念和新方法,并目_在已经成功的运用十实际的生产和生活领域之中,如最为经典的啤酒和尿布的关系。
根据挖掘方法的不同,可以将现有的多种数据挖掘技术分为:机器学习方法、数据库方法、神经网络方法、支持向量机方法、相关向量机方法、贝叶斯方法、遗传算法方法、粗糙集、模糊集、近似推理和不确定性推理、聚类方法等等。这些分类只是从挖掘方法的角度出发,刻画了数据挖掘研究的不同策略和范畴,他们之间是相互补充又相互交叉。在本文中将会介绍支持向量机方法、相关向量机方法、微粒群算法方法和粗糙集方法。
参考文献
[1]沈洪远(2009.有色冶金过程数据挖掘及其在铜梳吹炼中的应用研究中南大学,长沙.
[2]中国矿业网.2002年我国有色金属产品产量汇总表[[EB/oL].
[3]中国商情网.2006年中国铜业市场调研与产业研究预测报告[EB/OL].
[4] Friedman, J. H. Data mining and statistics: What's the connection[J]. 1997, pp.1-7.
[5] Han, J., Kamber, M.http://sblunwen.com/gclw/ Data mining concepts and techniques[M].Amsterdam; Boston; San Francisco, CA:Elsevier;Morgan Kaufmann. 2006.
[6] Hand, D. J., Mannila, H., Smyth, P. Principles of data mining[M]. Cambridge, Mass.:MIT Press. 2001.
[7] Fayyad, U. M., Piatetsky-Shapiro, G, Smyth, P. From data mining to knowledge discovery: an overview[M]. Menlo Park, CA, USA:American Association for Artificial Intelligence. 1996.
[8]毛国君,段立娟,土实,et al.数据挖掘原理与算法(第二版)[M].清华大学出 版社.2007.
[9] Hand, D., Mannila, H., Smyth, P.数据挖掘原理[M].张银奎,廖丽,宋俊等 译,:机械工业出版社,中信出版社.2003.
[10] Butler, P.过程抓‘制的革命性剧变[J].现代制造,2005(11), pp. 36-37.
[11]Butler, P.过程控制的革命性剧变:知识系统提高用户的经营业绩阴.数字 石油不I I化工,2006(z1), pp. 71-72.
[12]倪建军,马小平,土耀才.数据挖掘技术在工业控制系统中的应用研究阴.工业抓‘制i}一算机,2004. 17(003), pp. 5-5,8.
[13]朱群雄,麻德贤.过程工业新热点一一数据挖掘阴.数字化工,2003 (010) pp. 38-39.
[14]土耀南,宋明.复杂工业系统的广义知识模型与智能建模阴.中南工业大 学学报,2003. 34(004), pp. 335-341.
[15]张运陶,杨晓丽.轻烃回收装置数据挖掘及生产优化田.计算机与应用化学,2005. 22(7), pp. 555一560.
[16]丁彦明,庞维诚.数据库知识发现技术在连铸生产中的应用探索田.铸造设备研究,2002(1), pp. 13一15.
[17]杨杰,叶晨洲.用十建模,优化,故障诊断的数据挖掘技术阴.计算机集成制造系统,2000. 6(005), pp. 72-76.
[18]刘敦楠,何光宇,范吴,et al.数据挖掘与非正常口的负荷预测阴.电力系 统自动化,2004. 28(003), pp. 53-57.
[19]康重庆,夏清,张伯明.电力系统负荷预测研究综述与发展方向的探讨阴.电力系统自动化,2004. 28(017), pp. 1-11.
[20]吴以凡,艾丽君,欧阳树生,et al.面向钢铁生产过程质量控制的动态数据挖掘方法阴.冶金自动化,2006. 30(004), pp. 6-10.
[22]杨学瑜,宋晓娟,顾合英.数据挖掘在选煤厂过程控制中的应用阴.煤炭 科学技术,2004. 32(005), pp. 21-24.
[23] Clifton, C., Thuraisingham, B. Emerging standards for data mining[J].Computer Standards&Interfaces, 2001.23(3), pp. 187-193.
[24] Grossman, R. L., Hornick, M. F., http://sblunwen.com/gclw/
Meyer, G Data mining standards initiatives[J]Communications of the ACM, 2002. 45(8), pp. 59-61.
[25] Fayyad, U., Piatetsky-Shapiro, G, Smyth, P. Knowledge Discovery and Data Mining: Towards a Uni勿ing Framework[A]. Paper presented at: Proc. 2nd Int.
Conf. on Knowledge Discovery and Data Mining[C].(Portland, O助1996. pp.82一88.
[26] Boser, B. E., Guyon, I. M., Vapnik, V N. A training algorithm for optimal margin classifiers[A]. (ACM) 1992. pp. 144-152.
[27]邓乃扬.数据挖掘中的新方法:支持向量机【M].科学出版社.2004.
[28] Vapnik, V The nature of statistical learning theory[M].Springer Verlag. 2000.
[29] V N.vapnik. Statistical Learning Theory[M]. New York. 1998.
[30] Comes, C., Vapnik, V Support-vector networks[J]. Machine learning, 1995.20(3), pp. 273-297.
[31] Suykens, J., Vandewalle, J. Least squares support vector machine classifiers[J]. Neural processing letters, 1999. 9(3), pp. 293-300.
摘要 5-7
ABSTRACT 7-8
前言 9-14
第1章 绪论 14-20
1.1 复杂工业过程及其控制 14-15
1.2 数据挖掘的提出与发展 15-17
1.3 现有的常用数据挖掘方法 17-18
1.4 数据挖掘方法在复杂工业过程控制中的应用 18-19
1.5 本文的内容与结构 19-20
第2章 复杂工业过程中数据挖掘概述 20-26
2.1 复杂工业过程与数据挖掘的关系 20
2.2 复杂工业过程中数据挖掘的任务和目的 20-21
2.3 数据挖掘过程模型 21-24
2.3.1 Fayyad 数据挖掘过程模型 21-22
2.3.2 GRISP-DM 数据挖掘过程模型 22-23
2.3.3 其它的数据挖掘模型 23
2.3.4 复杂工业过程数据挖掘一般过程 23-24
2.4 数据挖掘算法的化约主义观点 24-26
第3章 基础知识 26-41
3.1 监督学习 26
3.2 贝叶斯相关理论 26-29
3.2.1 概率分布 26-29
3.3 极大似然估计法 29-30
3.4 贝叶斯网络 30-33
3.4.1 贝叶斯网络 30-31
3.4.2 贝叶斯网络推理 31
3.4.3 EM 学习理论 31-32
3.4.4 核函数方法 32-33
3.5 图论 33-35
3.5.1 基本情况 34-35
3.5.2 图分割 35
3.6 支持向量机模型 35-41
3.6.1 期望风险和经验风险 36
3.6.2 学习过程的一致性 36-37
3.6.3 VC 维 37
3.6.4 结构风险最小 37-38
3.6.5 最优超平面 38-39
3.6.6 线性情况 39-40
3.6.7 非线性情况 40-41
第4章 相关向量机机器学习理论 41-51
4.1 引言 41-42
4.2 相关向量机 42-45
4.2.1 相关向量机模型 42-43
4.2.2 模型推导 43-45
4.3 回归模型和分类模型 45-47
4.3.1 回归模型 45-46
4.3.2 分类模型 46-47
4.4 使用相关向量机进行回归和分类 47-51
4.4.1 一维回归 47-48
4.4.2 二维回归 48-49
4.4.3 二维分类 49-51
第5章 粗糙集数据挖掘理论方法 51-84
5.1 粗糙集 51-54
5.2 微粒群优化算法 54-57
5.2.1 标准的微粒群算法(PSO) 54-55
5.2.2 离散微粒群算法(DPSO) 55-57
5.3 差异演化优化算法 57-59
5.4 二分法思想 59
5.5 粗糙集的修剪思想和修剪规则 59-61
5.5.1 修剪思想(Pruning Thought) 59-61
5.5.2 修剪规则(Pruning Rules) 61
5.6 属性约简 61-81
5.6.1 基于微粒群算法的属性约简算法 61-65
5.6.2 求解粗糙集属性约简问题的离散微粒群算法 65-69
5.6.3 求解粗糙集属性约简问题的离散差异演化算法 69-75
5.6.4 基于二分法的粗糙集属性约简算法 75-78
5.6.5 基于修剪规则的粗糙集属性约简算法 78-81
5.7 常见属性约简方法评价 81-82
5.8 小结 82-84
第6章 相关向量机在复杂工业过程中数据挖掘过程与实例 84-88
6.1 引言 84-85
6.2 相关向量机在铜转炉吹炼中的应用 85-87
6.2.1 训练样本的获取和预处理 85
6.2.2 训练样本和属性选取 85
6.2.3 回归预测 85-86
6.2.4 结果分析 86-87
6.3 小结 87-88
第7章 结论与建议 88-90
7.1 结论 88
7.2 建议 88-90
参考文献 90-97
致谢 97-98
攻读学位期间发表的论文 98-99
攻读学位期间参与的课题 99
您可能有工程硕士学位论文方面的购买需求,请到工程论文硕士论文频道选取: