基于张量的大数据高效计算及多模态分析方法研究

论文价格:免费 论文用途:其他 编辑:硕博论文网 点击次数:
论文字数:110251 论文编号:sb2019051514325326238 日期:2019-06-03 来源:硕博论文网
本文是一篇计算机论文,笔者为应对流式数据引起的重复计算、巨大规模引起的计算耗时和繁杂计算引起的超高能耗等问题,本文提出一套高效的大数据计算方法,包括增量式张量链分解方法、基于张量链分解的并行张量计算方法以及基于张量的云边计算优化方法。

1   绪论

1.1  研究背景及意义
1.1.1  研究背景
互联网、物联网、云计算等高新信息技术迅猛发展,信息社会已经进入大数据时代。中国信息通信研究院发布的《中国大数据发展调查报告(2018)》称,2017 年中国大数据市场规模达 236 亿元,预计 2018 年~2020 年仍将保持 30%以上的增长1。据国际数据公司(IDC)调查显示,全球产生的数据总量预期 2020 年将达到 40 ZB(1021字节),其中有 22%来自中国2。《大数据产业发展规划(2016-2020 年)》指出,全面部署“十三五”时期大数据产业发展工作,加快建设数据强国,为实现制造强国和网络强国提供强大的产业支撑3。数据的快速增长成为许多行业共同面对的宝贵机遇和严峻挑战,充分利用大数据应用可让企业实现智能决策和提升运营效率。有效利用大数据的分析技术,发现大数据中的隐藏规律,挖掘大数据的潜在价值,从而预测未来的发展趋势,将极大地促进中国的科技经济及社会全面发展。
随着传感设备和社交媒体的不断扩展,各种不同数据将来自不同空间,如,网络空间、物理空间、社会空间,形成网络-物理-社会大数据(Cyber-Physical-Social Systems Big Data, CPSS 大数据)[1]。CPSS 大数据来源广泛并且相互交织,呈现出一些典型特征,如数据规模大(Volume)、类型多样(Variety)、速度快(Velocity)、数据不完整(Veracity)、价值密度不均(Value)等[2]。多样化的数据来源导致 CPSS 大数据具有多源、异构、混杂等特点。同时,随着数据规模的不断增大和不同领域数据之间的深度融合,CPSS 大数据中元素间的结构和关系变得更加复杂。在大数据分析过程中,不仅需要考虑本领域数据之间的相互作用,还要考虑跨领域数据之间的关联关系。同时,CPSS 大数据一般以流式方式产生,实现大数据分析需要高效的计算方法。因此,如何高效地表示、存储、计算、分析和处理流式产生的 CPSS 大数据面临诸多挑战。
大数据规模巨大而且增长快速,传统的数据分析及处理计算方法具有它们的局限性,在大数据表示、存储、分析和处理等方面均需要一套新的方法。而张量作为大数据表示和分析的一种有效工具,已经在各种领域得到广泛应用。针对不同类型的数据,如文本、图形、图像、视频、音频等数据,可以通过张量模型进行表示[3]。基于构建的张量,一些基于张量的大数据分析方法,如张量分解[4]、张量网络[5][6]等,被用于解决一些实际问题,已广泛应用于政府、经济、农业、交通、军事等不同领域[7][8] [9]。在一些复杂数据处理方面,基于张量的分析方法具有显著的优势,特别是在如随机偏微分方程[10]、脑数据分析[11]、大规模网络异常图[12]等大规模场景。
.........................

1.2  国内外研究现状
近年来,国内外众多学者在大数据分析和大数据计算等方面均开展了大量的理论研究和实践探索,为进一步开展高维异构大数据在高效计算和精准分析等方面的研究工作奠定了基础。下面将从大数据的计算方法,包括增量计算、并行计算、绿色计算,以及大数据的分析方法,包括推荐方法、聚类方法、预测方法等方面,分别介绍其国内外研究现状。
1.2.1  大数据计算方法
1.2.1.1   增量计算
大数据分析与处理在实际应用中对时间有一定要求,为了对大规模数据进行快速处理,近年来国内外学者做了大量的研究和探索。关于增量数据处理的研究方法,目前大致可以归纳为两类,一类直接通过增量数据进行计算和推理,从而实现高维大数据的全局处理。另一类是通过增量数据更新历史数据,并对更新后的数据进行处理。当前多数研究集中在直接通过增量数据进行计算和推理中。在基于张量的大数据分析和处理方法中,张量分解是一种重要的研究方法,其中最为普遍又很重要的操作是奇异值分解。针对在低维空间的奇异值分解,已有学者相继提出了一些增量分解方法,如增量式奇异值分解方法[26][27]。Sarwar 通过在动态增长的数据流上应用知识发现技术,利用奇异值分解理论对数据进行降维处理[28]。Gorrel 利用增量奇异值分解更新历史数据从而得到实时的核心数据集合,然后针对核心数据集合进行快速计算从而及时提供服务[29]。
此外,因为大数据中包含着大量的噪音和冗余数据,应用高阶奇异值分解[30][31]技术求取核心数据集 Coreset[32]的方法进行数据快速计算也逐渐成为研究热点。在高维空间,对增量数据进行分解主要有基于投影的增量式高阶奇异值分解方法[3][33],以及基于 Jacibo 旋转实现增量式高阶奇异值分解[34][35]。针对大数据在时间上延续性很强,在结构上与历史数据非常相似的特征,有研究人员提出增量张量流的方法,应用高阶张量分解技术[36]或高阶奇异值分解方法[37]提取高价值数据,这种方法也被应用到社会标签推荐系统中。数据增量处理过程中可以对高维数据进行分块,采用 Kruskal 置换对张量进行分割[38][39]是经典的处理方法,而且 Khatri-Rao 乘积运算能够保证分割后的张量展开矩阵列向量秩在计算前后的不变性.
.........................

2   张量背景知识

2.1  张量表示
本节给出张量模型的相关背景知识,主要包括张量、子张量(纤维、切片)等基本概念的定义,以及基于张量网络图的张量表示方法。

定义 2.2  子张量:通过固定张量部分阶的下标,并变化其他阶的下标,则得到的部分元素形成该张量的子张量。如果只变化某指定两个阶的下标,固定张量其他所有阶的下标,则得到的部分称为张量的切片(Slice)。如果只变化某指定一阶的下标,固定张量其他所有阶的下标,则得到的部分称为张量的纤维(Fiber)。如果固定张量所有阶的下标,则得到的部分称为张量元素。张量的纤维可视为向量,张量的切片可视为矩阵。
为了对本文使用符号进行统一表示,表 2.1 对本文常用的符号进行说明。为了对张量及其复杂的操作运算进行直观表示,我们常采用张量网络图进行表示[5][6]。图 2.1是一些基本符号和运算的张量网络图表示示例。在张量网络图中,一般有两类符号,一类为节点,例如圆形、方形、椭圆形、立方体等,另一类为边,或者叫分支、线等。其中节点代表张量,边代表张量的阶。在张量网络图中的边也分成两类,一类为同时连接两个节点的连边,表示张量的缩并操作,另一类为仅连接一个节点的边,表示张量的物理阶。因此,张量网络图中经过运算的张量最后的阶为物理阶的总数。通过整理网络图的表示可以更加直观地描述复杂的张量操作。

.........................

2.2问题定义
在基于张量的大数据表示和处理方法中,将遭受维度灾难影响。维度灾难指的是,张量的数据元素将随着阶数的增大呈指数级增长,相应地,数据的操作数量、计算资源、存储资源等开销也将呈指数级增长。因此,在基于张量的大数据分析系统中,一般存储的都是分解之后的结果。例如,在基于张量链分解的大数据分析系统中,存储的是去除噪声数据之后的低阶核心张量;在基于高阶奇异值分解的大数据分析系统中,存储经过去除噪声数据之后的核心张量和伴随矩阵。这些数据因为去除了噪声并保留了最重要的特征信息而被称为高质量数据,该数据因为压缩而便于存储和传输,因为保留的重要特征信息而有利于数据分析。
在本文研究的张量链系统中,所有的数据都是以张量链分解的张量核形式存储在云或者数据中心。而且所有的张量操作都是基于张量链形式实现,所得到的结果依然保持张量链形式(该研究工作将在下一章进行详细阐述)。因此,当新增数据以增量方式追加到原始数据的时候,如何才能得到更新数据的张量链分解结果?依据传统思想,我们只能对被增张量进行还原,再将还原后的被增张量和新增张量进行数据拼接得到更新张量,然后对更新张量重新进行张量链分解。如何利用原有张量的张量链分解结果来求解更新张量的张量链分解结果,从而避免对原有张量的重复分解,提高分解效率,是本章需要解决的核心问题。
..........................
3  基于张量链的增量式分解方法.............29
3.1  问题定义 ................................... 28
3.2  增量式张量链分解方案 ........................ 29
3.3  增量式张量链分解算法 ............................... 31
4  基于张量链分解的并行张量计算方法...............49
4.1  问题定义 ......................... 49
4.2  基于张量链的大数据处理框架 .................... 50
5  基于张量的云边计算优化方法..............94
5.1  问题定义 ......................... 94
5.2  云边计算优化框架 ........................ 95

8   基于高阶奇异值分解的多模态推荐和聚类方法
8.1  问题定义
在教育领域,随着云计算和移动互联网的发展,在线学习平台、翻转课堂、MOOCs等教学平台和模式迅速崛起。不同的学习平台产生了海量的教育大数据,包括个人数据、学习行为记录、交互数据等。新兴技术的崛起、学习内容的多样化和富媒体化,导致了教育大数据的体量呈指数级持续扩充。当前教育数据彼此分割、互操作不强,导致从中抽取、挖掘出有价值的个性化教育资源十分困难。而教育资源的持续扩充和再生的速度远超出个体的信息处理能力,引发了信息过载,形成“资源越来越多、获取越来越难”的信息悖论。面对多源异构的教育大数据,传统方法难以在有限的时间内对其进行表征、存储和处理。因此,如何从浩瀚的数据中筛选出有价值的信息,为学习者提供精准、个性化的学习服务成为教育大数据分析中面临的现实问题。
.........................

9   总结与展望

9.1  主要成果
本论文提出了一套基于张量的大数据高效计算方法和大数据多模态分析方法,主要研究成果包括:
(1)  提出一套基于张量的大数据高效计算方法
为应对流式数据引起的重复计算、巨大规模引起的计算耗时和繁杂计算引起的超高能耗等问题,本文提出一套高效的大数据计算方法,包括增量式张量链分解方法、基于张量链分解的并行张量计算方法以及基于张量的云边计算优化方法。
首先,在增量式张量链分解方法中,只需对新增张量进行张量链分解,通过补零张量的张量链结果求解定理和基于张量链结果的加法规则,实现更新张量的张量链分解结果求取。该方法可避免对原始张量进行重复分解,提高计算效率,为大数据流式环境下基于张量链的分解提供了一种新方法。其次,在基于张量链分解结果的并行张量计算方法中,提出了一套直接基于张量链分解结果进行张量运算的规则,其运算结果仍保持张量链分解格式,并根据其运算规则和分布式存储特点,提出了一套并行分布式计算方法。该方法可大大提高基于张量的大数据计算效率,为大数据时代的高效计算提供一种新的理论和方法。最后,在基于张量的云边计算优化方法中,在包含边缘设备、边缘服务器和云的三层云边计算架构下,基于张量表示模型提出了包括总能耗、总执行时间、系统可靠性和用户体验质量的云边计算优化模型,并设计了基于模拟退火的多目标优化及任务分配算法以对任务进行合理分配,实现各目标的整体优化。该方法在减少能耗的同时实现多个目标的整体优化,为大数据时代下的绿色高效计算提供一个通用的框架和解决方案。
(2)  提出一套基于张量的大数据多模态分析方法
首先,在基于张量链的高阶主特征值分解及多模态预测方法中,提出了基于张量链的多元马尔科夫多步转移以及稳态主特征张量的求解方法。该方法仅需对分解后很小的张量核进行并行操作,可在高预测准确率的前提下大大降低计算时间并节省内存开销。其次,在基于张量的多元多阶马尔科夫多模态预测方法中,研究了通用多元多阶马尔科夫模型,提出了基于张量统一乘的转移及稳态联合主特征张量的求解方法。该方法通过稳态联合主特征张量进行多模态预测,可大大提高预测准确度。最后,在基于高阶奇异值分解的个性化推荐和自适应聚类方法中,研究了教育大数据的张量表示和融合方法,提出了基于增量式高阶奇异值分解的多维关联分析方法,据此提出了个性化推荐算法及自适应聚类算法,实现不同情境下资源的精准推荐和学习者共同体的自适应构建。该方法通过对全局数据进行多维关联分析,具有更高的推荐准确率和聚类性能。这一套基于张量的大数据分析方法,通过多模态预测、个性化推荐、自适应聚类等功能,可满足不同用户在不同情境下的不同需求,促使人人能享精准的个性化服务,对大数据时代的数据分析和智能应用具有重要的实践意义。
参考文献(略)

如果您有论文相关需求,可以通过下面的方式联系我们
点击联系客服
QQ 1429724474 电话 18964107217