1.1 选题背景及意义
随着物联网的发展,个人能够将除智能手机和计算机之外的更多电子设备连接到互联网。根据思科视觉网络指数(VNI),移动数据流量急剧增加,在过去五年中增长了 18 倍。预计到 2021 年,流量将达到 2016 年的 7 倍。到 2021 年,移动设备的数量预计将达到 116 亿。到 2020 年全球数据总量预计达到 44 个 ZB,面对随之而来的大规模的数据,在信息越来越大的物联网数据面前,如何在无人的情况下自动有序地从海量物联网数据中提取出隐藏的、对人们生产生活有价值的信息就成为了一个迫在眉睫的问题。
数据挖掘是指从数据中找规律即提取有用的信息,与统计学、机器学习领域相关,获取的信息和知识可以广泛应用任何领域如:天文观测、空间地理、金融分析等,任何公司、企业可以利用数据挖掘理进行理解和规划业务。它是一个强大的工具,可以用于从物联网数据中提取信息和知识。但如今由于数据量巨大,传统的数据挖掘已经达不到企业和部分组织的要求,因此实现大规模数据挖掘是一个严峻的考验。
云计算的出现给物联网数据挖掘提供了新的方向,解决了数据的存储问题和计算能力的问题,云计算是 Cloud Computing、Distributed Computing、Parallel Computing、Utility Computing、Network Storage Technologies、Virtualization、Load Balance、High Available 等传统计算机和网络技术发展融合的产物。
1.2.1 物联网研究现状
德国在 2010 年成立了 M2M 竞争中心,并且德国电信在 2011 年 6 月发布 M2M开发工具包,进一步加速M2M 的发展。ITU-T第13研究组 2012年7 月,在ITU-TY.2006建议书中陈述了国际电信联盟(ITU)批准了的物联网的定义。在 2015 年的 CES 国际消费电子展的演讲上,Samsung 总裁兼首席执行官富根提出要把物联网作为 Samsung 重点业务。
为了快速推进物联网的研究和应用,我们国家在 2010 年 1 月成立了中国物联网技术产业联盟。在 2010 年 6 月,我们国家首个物联网工程专业成立于江南大学,随后越来越多的物联网专业在高校成立。工信部在 2012 年 2 月 14 日颁布了中国首个关于物联网的五年规划。
2015 年 M Satyanarayanan,P Simoens,Y Xiao GigaSight,这是一个互联网规模的众多视频内容存储库,具有强大的隐私首选项和访问控制功能[2]。GigaSight 体系结构是基于 VM 的 cloudlet 的联合系统,可在 Internet 边缘执行视频分析,从而减少对云入口带宽的需求。
2015 年 H Li,X Xing 公开了物联网(IOT)的体系结构[3]。该架构包括多级 IOT服务平台,其中上级 IOT 服务平台配置为管理以下一个或多个功能实体:IOT 终端,IOT 终端网关,下级 IOT 服务平台,特殊服务平台和服务网关。
.......................
第 2 章 物联网、云计算和数据挖掘技术
2.1 物联网
2.1.1 物联网的概念
随着技术、标准、网络的不断发展,计算机和互联网技术越来越成熟,新的信息技术也应运而生——物联网技术,它把物与物联系到了一起。这是继计算机和互联网之后的第三次信息产业革命,它开创了信息技术发展的新浪潮。物联网在不同领域,研究人员给出的定义各不相同,因此到目前为止物联网没有一个权威、完整和准确的定义。狭义的物联网不包括人,只包括事物和事物的相互联系。物联网广义概念是以网络为媒介,以人或“物”为对象通过网络实现实时信息交互。
物联网近年来的主要重大趋势是互联网连接和控制的设备爆炸性增长。物联网技术的广泛应用意味着从一个设备到另一个设备的细节可能非常不同,但大多数人都有共同的基本特征。物联网为物理世界更直接地融入基于计算机的系统创造了机会,从而提高了效率,提高了经济效益,减少了人力。
物联网系统架构,在其简单的视图中,由三层组成:第 1 层:设备层,设备包括联网的物体,例如 IIoT(Industrial Internet Of Things)设备中的传感器和执行器,特别是那些使用 Modbus,Zigbee 或专有协议等协议连接到 Edge 网关的设备。第 2层:边缘网关,Edge Gateway 由称为 Edge Gateways 的传感器数据聚合系统组成,提供诸如数据预处理,保护与云的连接,使用 WebSockets 等系统,事件中心,甚至在某些情况下,边缘分析或雾计算。第 3 层:云,这一层包括使用微服务架构为 IIoT 构建的云应用程序,这些架构通常是多语言,本质上使用 HTTPS / OAuth本质上是安全的。它包括存储传感器数据的各种数据库系统,例如使用后端数据存储系统的时间序列数据库或资产存储(例如 Cassandra,Postgres)。大多数基于云的物联网系统中的云层具有事件排队和消息系统,可处理所有层级中发生的通信。一些专家将 IIoT 系统中的三层分类为边缘,平台和企业,它们分别通过邻近网络,接入网络和服务网络连接。
...........................
2.2.1 数据挖掘的概念
KDD(Knowledge Discovery in DataBase)是指从数据库中发现有用的、新奇的、隐藏的以及最后可以解释的非平凡执行过程,如图所示。KDD 是多级加工模型,在这个发现过程有很多步骤,首先将源数据端的数据经过一定的法则提取、变化、加载到目的端进行预处理,经处理后的数据采用数据挖掘和机器学习适当的算法进行分析,进而得到有用的知识。
数据挖掘是 KDD 的一个步骤,是指在大量不完整的、不规则的、有噪声的、不清晰的、不确定的数据中,通过某种算法发现隐藏在数据中的有用信息的过程数据挖掘本质上是依据某个业务要求采用某些方法可以发现某个规则或模型的过程。数据挖掘涵盖多个领域包括统计学、机器学习、模式识别等。数据挖掘是一个相对热门和前景的领域,随着数据挖掘技术的普遍应用,它给我们的生活、工作的各个方面都带来了很大的方便。
(1) 数据集的选择
数据集选取的方法有很多种,可以从数据集相关网站下载如:UCI、Kaggle、Quandl、Past KDDCups 等,也可以使用网络爬虫技术爬取所需数据,还可以从某些公司公开的数据库中下载。数据集的选取非常关键,决定之后将采用何种算法。
(2) 数据集预处理
该阶段实际是为数据挖掘做好优质数据集的准备,主要包括数据集成、数据转换、数据规约等步骤。完成预处理的数据就可以传送到目的端进行数据挖掘。
(3) 数据挖掘
该过程首先要清楚知道数据的结构、维度等特征,以及要熟练掌握数据挖掘中的所有算法的优缺点及哪种算法能更好的处理哪种数据。然后按照相关工作需求,选用合适的算法进行数据挖掘,从数据集中发现隐藏的有用的信息。
..............................
第 3 章 ALDCK-means 聚类算法分析 ........................ 18
3.1 聚类分析 .................................... 18
3.1.1 聚类分析基础理论 ............................. 18
3.1.2 聚类算法介绍 ..................... 20
第 4 章 实验仿真及结果分析 ............................... 35
4.1 搭建实验环境 ......................................... 35
4.1.1 软硬件环境 .................................. 35
4.1.2 Hadoop 实验环境搭建 ......................... 35
第 5 章 总结与展望 .......................... 44
第 4 章 实验仿真及结果分析
4.1 搭建实验环境
Hadoop 的运行环境一般是 Linux,但由于实验环境的限制,也为了方便研究和实验,本文的实验采用在 Windows 上安装虚拟服务器,并在虚拟服务器上安装Linux 系统,从而实现 Hadoop 在 Linux 环境下运行[70]。
4.1.1 软硬件环境
电脑配置:CPU 型号 i7-8750H CPU 8 核 16 线程 2.2G Hz 内存 32.0 GB 系统类型 64 位处理器。
所用软件及版本见表 4.1 下:
...........................
第 5 章 总结与展望
传统数据挖掘计算能力有限,对数据挖掘算法迭代复杂性,难以发现物联网数据中存在的关系和规则,不能根据现有物联网数据预测未来发展趋势。云计算被称为是继大型计算机、个人计算机、互联网之后的第四次 IT 产业革命,具有强大的计算能力和存储能力,为物联网数据挖掘指明方向,本文就是在这样一个背景下,通过物联网数据挖掘技术与云计算框架相结合实现大规模物联网数据进行处理。本文主要内容:
(2)在虚拟机上搭建 Hadoop 平台包括:HDFS 集群和 Map Reduce 集群,本文把实验室数据存储在 Hadoop 平台的 HDFS 上,然后利用 Map Reduce 模型的计算优势,在 Hadoop 平台设计与实现 ALDCK-means 聚类算法的并行化。结果表明,并行后的 ALDCK-means 算法在加速比上有了明显的提高,即有更高的执行效率,具有处理大规模数据的能力。
(1)首先,实验环境的硬件条件的限制,群集的当前数目仍然是不够的,实验用的数据集不够大。如果真的是投入生产,存在一定的风险。我们需要做的第一件事是配置更好的服务器和增大实验所用计算机集群规模。
(2)虽然可避免 K-means 选择初始中心的问题和 k 值事先指定的问题。但是ALDCK-means 还是存在一些问题,比如新算法还要设置一个截距cd ,是不是可以在进行某些优化,更好的解决 K-means 算法存在的缺点。
(3)目前我们的模型计算的结果是文本的形式存储的。是否能进行一些改进,使结果存储在 HBase,将获得的结果可视化,以便更好的分析数据。
参考文献(略)