电力统计数值品质预估及异常检测理念研究

论文价格:免费 论文用途:其他 编辑:lgg 点击次数:173
论文字数:38560 论文编号:sb201401181148209530 日期:2014-01-19 来源:硕博论文网

第一章 绪 论


1.1 论文研究背景与意义
数据质量评估是在数据挖掘过程中是一个重要关键的过程,它对数据挖掘是否成功起着巨大的作用。目前所进行的关于数据挖掘的研究工作,大多着眼于数据挖掘算法的探讨,而忽视了数据分析前对数据质量处理的研究。一些比较成熟的算法对其处理的数据集合都有一定的要求,比如数据完整性好、数据的冗余性少、属性之间的相关性小。然而,实际系统中的数据一般都具有不完整性、冗余性和模糊性等问题[4],很少能直接满足数据挖掘算法的要求。另外,在海量的实际数据中无意义的成分很多,严重影响了数据挖掘算法的执行效率,而且由于其中的噪声干扰还会造成无效的归纳。数据质量的提高已经成为数据挖掘系统实现过程中的关键问题。数据质量评估(Data Quality Assessment)是数据质量管理(Data Quality Management) 的重要组成部分,承担着发现数据问题的重任,是改善数据质量的驱动力和风向标。数据质量是一个多维的概念,每一个维度代表一个审视数据质量的角度,例如可信度(Believability) 、 完 整 度 (Completeness) 、 精 简 度 (Concise Representation) 、 及 时 度(Timeliness)、可理解度(Understandability)等数据质量评估是以需求为导向的,同样的数据在不同的应用背景下的接受度是不同的,例如对于数据挖掘,同样的数据在一个挖掘主题下表现良好,而在另一个挖掘主题下却得不到有意义的结果。因此,需求分析实际上是维度选择的过程,数据质量评估从一个或几个维度出发,以动态或静态的方式审视数据。所谓动态的评估方式,是指从数据产生机制上对数据质量进行评估,而静态方式只考虑数据本身。虽然动态的评估方式能够更彻底全面地对数据质量做出评价,但在很多的应用背景下,如数据挖掘,往往受条件限制,无法得知数据产生机制的信息。针对数据的质量问题,这其中包括数据清洗、数据整合、相似记录检测、数据质量评估、数据质量过程控制和管理等一系列环节。而在数据质量管理的所有环节中,数据质量评估是提高数据质量的基础和必要前提,它能对应用系统的整体或部分数据的质量状况给出一个合理的描述和评价,从而可以帮助数据用户了解应用系统的数据质量水平,及时发现数据质量问题,并采取相应的处理过程来修复数据质量问题,提高数据质量。因此,结合电网实际情况和未来发展的需要,构建统计指标数据质量评估体系对电网的发展具有重大意义。


1.2 国内外主要研究现状


1.2.1 电力系统异常数据检测辨识的研究现状
异常检测是对数据集中与众不同的偏差值、孤立点的识别。在许多领域中都有着广泛的研究与应用,比如欺诈交易监测、图形图像分析[5]、喷气发动机[6]、医疗诊断等。不同的领域对异常的约束条件有着不同的定义,所以没有通用的异常检测方法。现在不同领域的研究者依据各自检测的需求不同,开发了各种异常检测算法,可以从使用的主要技术路线角度、类标号(正常或异常)可以利用的程度、面向对象的特殊性角度三方面分类(如图 1.1)。随着电力系统的快速发展,其运营结构日益庞大并积累海量数据,成为异常检测的一个重要的研究领域。现在,国内外专家对电力系统中不良数据的检测问题提出了不同的解决方法。最常用的有基于数据挖掘和基于状态估计两大类[7,8]。基于数据挖掘的不良数据检测数据挖掘是从数据库的大量的、随机的数据中获得先前未知的并有潜在特殊关系性的信息的过程。数据挖掘的分析方法主要有关联分析、序列模式分析、分类分析和聚类分析;数据挖掘的具体算法主要有统计分析法、决策树方法、神经网络方法、覆盖正例和排斥反例方法、粗糙集方法、概念树方法、遗传算法、公式发现、模糊集方法和可视化技术。根据分析方法和具体算法的不同,基于数据挖掘的不良数据的检测辨识方法又可以分为基于神经网络、基于模糊理论和聚类分析及基于间隙统计的三种方法。


第二章 电力统计数据的质量评估模型及流程研究


2.1 引言
随着智能电网的迅速发展[31,32],电力统计数据量急剧扩大,数据质量问题变得日益突出,而准确可靠的电力统计数据是决策和科学研究的基础。同时,数据的质量评估是提高数据质量的基础和必要前提。因此,本章通过对电力统计数据现状的分析,介绍电力统计数据质量评估的评估指标,并提出一个基于电网数据特点的数据质量评估模型,通过选取评估指标、设计评估规则、确定评估指标权重和期望值,计算出综合评估值、总体期望值和相对差值,对数据在每个评估指标上的状态进行量化,从而对整体或部分数据的质量状况给出一个合理的评价,帮助决策者和用户了解数据质量水平,并采取适当的处理方法来提高数据质量。电力统计数据可以视为电力系统的一种统计产品,而这一产品在信息化时代受到了更多的关注,其质量的概念也被赋予了更多的内涵。传统的统计数据质量仅仅指其准确性,通常用统计估计中的误差来衡量。在市场经济条件下,准确性已不再是衡量统计数据质量的唯一标准。统计数据既然作为一种统计产品,其质量的定义必须从用户的角度出发,把统计数据所提供的信息是否能满足用户的需求作为首要考虑因素,因此,企业统计数据质量就应该是一个具有丰富内涵的综合性概念,统计数据质量不是一个绝对的、而是相对的属性概念,不同的用户在不同时期对统计数据质量有不同的标准[36]。


第三章 电力统计数据质量评估中指标权重
3.1 引言.... 18
3.2 评估指标权重计算方法........ 18
3.2.1 层次分析法........ 18
3.2.2 权重确定步骤.... 19
3.3 小结.... 25
第四章 电力统计数据质量评估中的异常检测分析
4.1 引言......... 26
4.2 SPSS 简介 ...... 26
4.3 单一统计指标数据异常检测..... 26
4.4 有直接逻辑关系的多个统计指标数据的异常检测..... 28
4.5 不存在明显求解关系的多个统计指标数据......... 28
4.6 异常检测算例分析......... 36
4.7 小结......... 48
第五章 总结与展望
5.1 总结......... 49
5.2 展望......... 49


结论


目前电力部门已经累积了大量的统计数据,其中不可避免的会有异常、冗余或不完整的数据,在电网数据综合应用和共享的过程中,如何确保统计数据质量并从中获得有效信息对电网正确决策起着关键作用。本文结合电力数据对数据质量评估的需求,选取适当的评估指标实现对数据的全方位的评价,并建立以统计数据质量评估指标为依据的评估模型,考虑各指标实际问题中重要性的不同,对评估指标进行加权,量化地对数据质量各指标进行评估。所做工作取得的主要成果如下:
(1)  建立了一个统计数据质量评估模型,从而实现统计数据质量评估结果的量化。整体的评估流程是:先确定评估数据对象;再根据数据质量评估需求选择评估指标;结合电力统计指标内涵设计评估规则,然后利用层次分析法确定评估指标的权值,并赋予对每个评估指标的期望值,最后由每个评估指标的合格百分比、权重、期望值计算出综合评估值、总体期望值和相对差值,了解统计数据整体质量水平。
(2)  考虑到每个评估指标在评估过程中的相对重要性不同,用层次分析法按各指标的重要性程度对每一指标赋予权值。其步骤包括建立层次结构图、形成判断矩阵、计算权向量和检验判断矩阵一致性。其中,判断矩阵是将各数据质量评估指标进行两两比较,确定重要性程度,并对重要性程度按 1~9 赋值,这样可以避免人为的主观因素,使评估结果更加科学、客观。
(3) 详细研究了正确性的评估方法(异常检测),检测分析分三种情况进行了讨论,若检测对象是单一的统计指标,则采用箱线图来辨识异常数据;若检测对象是有直接逻辑关系的多个统计指标时,则通过衡量统计数据是否与逻辑规律一致来识别异常值;若检测对象是没有直接逻辑关系的多个统计指标时,则通过回归分析,得出他们之间的多重线性方程,再分析预测值与实际值之间的差距,得出异常值。但当多个统计指标之间有一定的相关关系,反映的信息有所重叠时,不可直接进行回归得出方程,应先对这些统计指标进行主成分分析,提取合理的主成分,再在此基础上进行回归方程的计算。


参考文献
[1] 邱承武,宓群超.利用电力数据四级网实现小电厂数据的采集[J].电力系统自动化,2006,30(3):105-106.
[2] 金肇光,梁奇峰,黄少先,等.计算机与网络仪表构成的电力数据实时测量系统[J].电力系统及其自动化学报,2004,16(1):89-91.
[3] 王兴志,严正,沈沉,等.基于在线核学习的电网不良数据检测与辨识方法[J].电力系统保护与控制,2012,40(1):50-55.
[4] Chandola V, Banerjee A, Kumar V. Anomaly Detection: A survey [J]. ACM ComputingSurveys, 2009, 41(3):15-58.
[5] Markou M, Singh S. A neural network-based novelty detector for image sequenceanalysis [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2006,28(10):1664-1677.
[6] Clifton DA, Tarassenko L, McGrogan N, etal. Bayesian extreme value statistics fornovelty detection in gas-turbine engines[C]. IEEE Aerospace Conference. New York:IEEE Press, 2008:1-11.
[7] 刘莉,翟登辉,姜新丽,等.电力系统不良数据检测与辨识方法的现状与发展[J].电力系统保护与控制,2010,38(5):143-147,152.
[8] 蒋德珑,王克文.不良数据检测与辨识算法的评估研究[J].计算机工程与应用,2012,48(22):239-243.
[9] Rakhshani, E. Sariri, I. Rouzbehi, K. Application of data mining on fault detection andprediction in Boiler of power plant using artificial neural network [C]. InternationalConference on Power Engineering Energy and Electrical Drives, 2009, 473-478.
[10]叶学勇,吴军基,杨伟,等.基于神经网络的电力系统不良数据的修正[J].电网技术,2007,31(S2):173-175.
 


QQ 1429724474 电话 18964107217