面向不同数据形态的高效用序列模式挖掘算法探讨

论文价格:150元/篇 论文用途:硕士毕业论文 Master Thesis 编辑:硕博论文网 点击次数:
论文字数:56255 论文编号:sb2025092615484153562 日期:2025-10-01 来源:硕博论文网

本文是一篇软件工程论文,本文从这三个方面入手,提出了新的数据结构与剪枝策略,设计了不同的挖掘算法,并用算法进行了案例分析。
第1章 绪论
1.1  研究背景和意义
随着数据规模的指数级增长,传统的数据分析与处理方法已经无法满足日益复杂的应用需求。在此背景下,模式挖掘(Pattern Mining)[1]技术应运而生,成为了探索数据内部规律、揭示隐含信息的重要手段。作为数据挖掘领域的核心分支,模式挖掘旨在发现数据中隐藏的规律或趋势信息,从而为决策者提供科学依据。例如,在医疗领域[2],模式挖掘能够辅助医生识别疾病的早期症状或患者的健康变化趋势,为诊疗方案优化和疾病预防提供支持。在金融领域[3],模式挖掘能够检测异常交易记录,有效防范欺诈风险,保障客户资金安全。由此可见,模式挖掘技术凭借其在数据规律发现与趋势预测方面的独特优势,已成为学界与工业界的关注焦点,展现出广阔的应用价值与发展潜力。
SPM是模式挖掘领域的重要研究方向,其核心目标是从具有时序关系的数据中提取频繁出现的模式集合。SPM最早由Agrawal等人[4]提出,通过支持度(support)衡量序列的频繁程度,即统计序列在数据库中出现的次数或比例。具体而言,SPM的任务是挖掘所有支持度不低于预设最小支持度阈值的序列模式。然而,传统的SPM存在明显的局限性,它仅关注项的出现频率,而忽略了项的相对重要性,导致挖掘结果可能缺乏实际决策价值。例如,在零售场景中,苹果和橘子的销量通常高于空调和洗衣机,但后者的利润更高。若仅依赖支持度,SPM会频繁输出“苹果→橘子”的组合,而忽略低频高利润的“空调→洗衣机”序列。为了解决这一问题,研究者将效用理论引入SPM中,提出了HUSPM的概念。HUSPM通过效用值衡量量化序列的重要性。在实际应用中,效用值可以体现为商品利润、疾病风险等级或欺诈行为的危害程度等。
....................
1.2  研究现状
序列模式挖掘关注项的顺序关系,高效用模式挖掘关注项的数量和权重,而高效用序列模式挖掘综合考虑了项的顺序关系、数量和权重,其实际应用价值更高,已成为当前研究热点。本节分别对序列模式挖掘、高效用模式挖掘和高效用序列模式挖掘的研究现状进行总结和分析。
1.2.1 序列模式挖掘
序列模式挖掘(SPM)任务是找出序列数据中频繁出现的模式。迄今为止,SPM已经取得了众多研究成果,其大致可以分为广度优先搜索算法、深度优先搜索算法及衍生算法。 广度优先搜索也称为逐层搜索,最经典的广度优先算法有AprioriAll[6]和GSP[7]。AprioriAll算法是一种基于Apriori属性的算法,在挖掘原理上与Apriori算法类似。GSP算法基于Apriori属性执行广度优先搜索,它通过重复扫描数据库来计算候选序列的支持度,这导致它有非常高的计算成本。广度优先搜索算法的主要缺点是需要多次扫描数据库,并且会生成许多数据库中不存在的候选序列,内存维护成本较高。相比之下,深度优先搜索算法只需扫描一次数据库便可枚举所有模式,无需维护大量数据库中不存在的候选模式,时空效率更高。 
深度优先搜索又称回溯搜索,其主要分为基于垂直数据格式的算法和基于模式增长的算法。以SPADE算法[8]为代表的垂直数据格式方法将原始搜索空间分为多个小的片段并独立求解,有效减少了数据库扫描次数。后续改进算法[9]引入了基于IDList结构的位向量编码技术,有效减少了内存使用量,这种编码方式对密集数据集和稀疏数据集都具有良好的压缩效果。基于位向量编码的方法通过空间换时间的策略优化了内存效率,但需要额外的位操作维护。另一类以PrefixSpan[1]为代表的模式增长算法,通过递归投影实现搜索空间剪枝,其核心机制是动态构建投影数据库,仅保留与前缀匹配的后缀子序列,且只生成数据库中出现的模式,避免了冗余候选模式的生成。然而,该类算法需重复扫描数据库并创建投影子数据库,最坏情况下,它甚至需要复制整个数据库并进行投影,时空复杂度依旧很高。这两类深度优先搜索算法各具优势,SPADE类的算法更适合内存受限的场景,而PrefixSpan系列的方法则更擅长处理长序列模式。
............................
第2章 相关工作
2.1 基本概念
事件序列在日常生活中越来越普遍,事件序列蕴含着丰富的信息,与忽略顺序的事务数据不同,事件序列聚焦于事件之间的顺序关系,每个事件可以看作是序列中的一个元素(也称为项),这些元素按照发生次序依次排列。高效用序列模式挖掘算法正是针对事件序列数据进行挖掘,本节对其基本概念进行介绍。
令I = [i1,i2,…,im]为所有非重复项(Item)的完备集合,每个项i都与一个正数pi相关联,pi被称为外部效用(External Utility)。由I中n(1≤n≤m)个不同数据项组成的无序集合称为项集(Itemset),表示为X = [i1,i2,…,in],即X是I的非空子集(X I)。由有限个项集X组成的有序集合称为序列(Sequence),表示为s = <X1,X2,…,Xk>。序列s的量化序列(Quantitative Sequence)表示为Sk = <[(i1,q1)][(i2,q2)(i3,q3)]…[(in,qn)]>,其中一个方括号代表一个项集X,项集中的每个项i都与一个正数qi相关联,称为内部效用(Internal Utility)。序列s的长度由其所包含的项的个数决定,表示为|s|。此外,序列s的量化序列Sk也称为q-序列Sk,q是与数量相关联的对象。需要注意的是,除非特别说明,否则本文中的序列s均指非量化序列,序列Sk均指量化序列。
量化序列数据库D定义为包含n条量化序列Sk的有限集合,每条量化序列Sk都有一个唯一的序列标识符(Sequence Identifier, SID)。图2-1(a)是一个量化序列数据库示例,共包含六条量化序列。量化序列数据流DS定义为一个无限且连续的数据序列,其中Sn是第n个产生的序列,每个序列包含唯一的序列标识符SID。图2-1(b)是一个量化序列数据流示例。表2-1是量化序列数据示例中每个项的外部效用对照表。

软件工程论文怎么写
软件工程论文怎么写

...................................
2.2 静态高效用序列模式挖掘算法
按照挖掘结果集的不同,静态高效用序列模式挖掘算法主要分为全集模式、衍生集模式和精简集模式挖掘算法,本节从这三个角度进行综述。
2.2.1 全集高效用序列模式挖掘算法
全集高效用序列模式是指所有满足效用值不小于预定义最小效用阈值的高效用序列模式集合,没有经过任何筛选和简化操作。按照算法中存储结构的不同,全集高效用序列模式挖掘算法主要分为五类,即基于树的算法、基于列表结构的算法、基于矩阵结构的算法、基于链结构的算法和其他算法,图2-2对全集高效用序列模式挖掘算法按照这五种类型进行了系统性总结,并从对比算法、模式类型、上界值、关键技术、优点及缺点等多个维度进行了详细对比分析。
基于树的算法扫描一次数据库建立树结构,然后根据树结构挖掘模式。最早的基于树结构的算法是UWAS-Tree算法[34],该算法用于挖掘静态数据库中的网络日志序列,它避免了多次扫描数据库。然而,该算法在挖掘过程中会产生大量候选模式,从而导致算法效率较低。受AprioriAll算法和PrefixSpan算法的启发,Ahmed等人[35]设计了UL算法和US算法,UL算法采用生成与测试的方法生成候选序列,需多次扫描数据库且扫描次数直接依赖于候选序列的最大长度。US算法采用模式增长的方式递归地划分搜索空间,与UL算法相比,它生成的候选序列非常少。UMSP算法[36]用于挖掘移动序列模式,该算法通过构建MTS-Tree来存储序列元素,并分别采用广度和深度优先搜索进行挖掘。PHUSP算法[50]是一种基于队列平衡策略的多线程算法,它采用了相同长度相同时间的策略对原始数据库进行分区划分,每个分区采用HUS-Span算法挖掘局部高效用序列集合。HUSP-FP算法[51]通过建立全局树并采用模式增长的方式从全局树上挖掘所有的HUSPs,避免了候选序列的生成,然而,全局树的建立与维护使得其消耗了大量内存。
..........................
第3章 快速高效用序列模式挖掘算法研究 ................... 23
3.1 引言 ...................................... 23
3.2 FEUSP算法的设计与实现 ....................... 24
3.3 实验结果与分析 ............................. 32
第4章 数据流高效用序列模式挖掘算法研究 ........................... 39
4.1 引言 ................................. 39
4.2 HUSP_DS 算法的设计与实现 .......................... 40
4.3 实验结果与分析 ............................. 47
第5章 不确定数据流高平均效用序列模式挖掘算法研究 ................ 57
5.1 引言 .................................... 57
5.2 HAUSP_UDS 算法的设计与实现 ....................... 58
5.3 实验结果与分析 ................................. 68
第6章 在线零售交易案例分析
6.1 数据集描述与待解决问题
随着电子商务的蓬勃发展,各类线上线下零售平台相继涌现,商品种类和数量呈爆炸式增长。例如,亚马逊、淘宝、京东等大型电商平台涵盖了从日常用品到高端电子产品等数以亿计的商品类别,这种丰富性在给消费者提供更多可能性的同时,也带来了严重的信息过载问题。消费者在面对琳琅满目的商品时,往往难以快速准确的找到符合自身需求和偏好的商品。与此同时,市场竞争日益激烈,零售业为了吸引顾客、提高销售额和客户忠诚度,急需精准有效的营销策略。因此,挖掘隐藏在数据中的潜在知识,揭示用户行为背后的规律,对于企业提高商品销售转化率,增加客户粘性,优化库存管理,并在激烈的市场竞争中脱颖而出具有重要意义。
高效用序列模式挖掘算法中的效用用于衡量序列的重要程度,其泛化的概念能够为决策者提供很大的灵活性,决策人员可以为其赋予不同含义。在本章的案例分析中,外部效用表示商品的购买数量,内部效用表示单个商品的利润值,利用第5章设计的HAUSP_UDS算法挖掘不同用户群体的购物行为偏好及商品季节性销售情况。本章所使用的数据集是来自于UCI3数据仓库的在线零售交易数据Online Retail II,该数据集包含2009年12月1日至2011年12月9日期间英国非实体店的在线零售交易记录。原始数据集共有1067371条交易记录,包含8个属性列,各个属性列的具体含义如表6-1所示。

软件工程论文参考
软件工程论文参考

............................
第7章 总结与展望
7.1 工作总结
高效用序列模式挖掘技术涵盖范围广泛,应用场景丰富,对于深入理解数据并挖掘其中蕴含的潜在知识具有重要意义。本文对高效用序列模式挖掘算法的研究背景、研究意义以及研究现状进行了分析与总结。目前,高效用序列模式挖掘技术在算法挖掘效率、不同形态数据的处理和实际应用层面存在一定的局限性。因此,本文从这三个方面入手,提出了新的数据结构与剪枝策略,设计了不同的挖掘算法,并用算法进行了案例分析。具体概括如下:
在静态数据集中,为了解决当前静态挖掘算法时空效率不高的问题,本文设计了一种改进的高效用序列模式挖掘算法FEUSP。该算法设计了效用索引列表结构,能够有效加快算法搜索速度。为了减少算法的搜索空间,该算法设计了基于向下封闭属性的紧凑序列效用上界,并基于该上界设计了新的剪枝策略。实验结果表明,FEUSP算法相比于现有算法的运行时间和内存消耗更少。
在精确数据流中,为了解决算法适用性问题,本文设计了一种精确数据流高效用序列模式挖掘算法HUSP_DS。该算法使用滑动窗口模型将无限的数据流划分到连续的窗口内,并使用投影窗口存储数据流序列。为了进一步提升挖掘效率,算法提出了动态效率索引表结构存储并维护窗口内序列的效用信息。实验结果表明,HUSP_DS算法能够有效挖掘精确数据流中的高效用序列模式,并且算法性能优于对比算法。
参考文献(略)


如果您有论文相关需求,可以通过下面的方式联系我们
点击联系客服
相关软件工程论文论文
QQ 1429724474 电话 17821421628