
第一章 引言
1.1 研究背景
随着宽带接入技术和移动终端技术的快速发展,移动终端乃至整个移动互联网已经和各个领域迅速融合,对政治、文化、社会以及经济等各方面产生了重大影响,人们的日常生活以及社会的发展进步越来越依赖于移动互联网。与此同时,智能手机作为一种便携的移动终端,及时通讯联系亲朋好友、随时上网获取资讯等快速便捷式体验,俨然智能手机已经成为了我们生活的必需品。根据中国互联网络信息中心(China Internet Network Information Center,CNNIC)发布的报告显示[1],截止去年 12 月,中国手机网民规模达 7.53 亿,相比于 2016 年底净增的网名数量突破 5700 万人,其中 2017 年使用智能手机上网的网民占比例相比由 2016年提升了 2.4%,如图 1-1 所示:

..............................
1.2 研究内容与意义
根据国内外对智能手机用户认证问题的相关研究现状,可以看出用户对个人信息保护的意识越来越明确,手机用户认证的方法也在不断创新改进,但即使这样我们的个人信息还是经常被入侵者窃取导致财产损失,到底在对手机用户认证过程中是什么原因或者哪一个环节导致的隐私的泄漏?一般的对于智能手机用户认证,传统的认证方法有密码输入、九宫格图案等方式,还有基于生物特征的用户认证,如声音解锁、指纹解锁。
在传统用户认证方法中,当用户输入密码或绘制图案解锁手机时,密码和图案手势容易被窥探到,不法分子可以直接参照仿冒解锁手机。而且手机不小心遗失或者被盗,密码和图案都容易被暴力破解,手机里的隐私信息将会一览无余,不法分子如果对涉及财产的业务盗取滥用,又会对用户带来难以弥补的损失[6]。另一方面,通常用户设置的密码是 4-6 位,而且为了方便记忆很多都设置成本人的生日或者电话号码,更加降低了不法分子解锁密码的难度,因此为了提高安全性,可以采取增加密码长度的方式加以改进,但同时也出现一种弊端即过长的密码会造成记忆困难或者记忆混淆,尤其是对儿童、老人而言更是困难[7]。基于生物特征的用户认证方法看似比传统认证方法安全性更高,但其实也存在着密码剽窃[7]和物件剽窃的安全问题,真实用户容易被恶意攻击或者利用高科技手段获取到用户的生物特征,当智能手机无法区分真实用户和通过非法手段获取密码的入侵用户时,用户认证没有达到任何效果,一旦入侵用户掌握用户认证的密码方式,用户的个人信息和财产将面临严重威胁。因此用户认证正逐步成为手机操作中至关重要的环节,对这方面研究是极其有意义的。
..............................
第二章 相关技术研究
2.1 常用手机用户认证方法
常用的手机用户认证方法主要分为两类,一种是基于生物特征的用户认证方法,一种是基于非生物特征的用户认证方法。其中基于生物特征的认证方法再根据身体特征和行为特征细分为两类认证方法。
2.1.1 基于非生物特征的用户认证方法
当前社会中,为了避免手机隐私直接泄露,通常使用基于非生物特征的用户认证方法加以保护,其中静态密码、智能卡和动态口令最常见的方法[18]。第二章 相关技术研究
2.1 常用手机用户认证方法
常用的手机用户认证方法主要分为两类,一种是基于生物特征的用户认证方法,一种是基于非生物特征的用户认证方法。其中基于生物特征的认证方法再根据身体特征和行为特征细分为两类认证方法。
2.1.1 基于非生物特征的用户认证方法
静态密码因为其设置操作简单,解锁方便快捷的优势成为目前手机上最广泛、最普遍使用的认证方式。由用户自己设定,需要使用手机时自行输入解锁,实际上,由于许多用户为了方便记忆避免忘记,通常使用生日或者身份证后几位数字作为密码,很容易造成密码泄露,不能提供足够的安全性,但是设置的密码过于复杂,不方便记忆,也会使得手机用户的体验度大大下降,因此静态密码的安全性较低。
智能卡[19]最常见的就是手机中的 SIM 卡。智能卡内部由大量复杂的电路芯片集成一体,看似微小,其中包含了用户所有的个人信息,这些信息是通过特定方式加密存储在芯片里。需要用户认证时,则是将智能卡插入,主机系统读取到卡中内部信息与自身系统信息对比,完成一个身份认证过程。不法分子需要盗取智能卡后也不容易破解,其安全性较好。但芯片制作的复杂性增加了智能卡的生产成本,不太容易被大众群体接受,而且没有智能卡就无法认证,如果一不小心遗失或被盗,补办智能卡的过程会让用户倍感烦杂。
...............................
2.2 数据分析相关技术
数据分析是是对大量数据提取有用信息,通过一定的分析手段得出可以描述这一系列数据规律的结论。经典的案例比如沃尔玛的营销策略:啤酒与尿布,通过数据分析人们购物时选择商品的组合,从而找出顾客购买行为的规律。本文中数据预处理阶段、特征提取分析和数据可视化过程中不仅自行编写分析处理代码,而且也综合运用数据分析处理软件 Weka。以下分别是是 Weka 工具、分析处理代码 Python 以及分类算法的介绍。
数据分析是是对大量数据提取有用信息,通过一定的分析手段得出可以描述这一系列数据规律的结论。经典的案例比如沃尔玛的营销策略:啤酒与尿布,通过数据分析人们购物时选择商品的组合,从而找出顾客购买行为的规律。本文中数据预处理阶段、特征提取分析和数据可视化过程中不仅自行编写分析处理代码,而且也综合运用数据分析处理软件 Weka。以下分别是是 Weka 工具、分析处理代码 Python 以及分类算法的介绍。
2.2.1 Python 介绍
第三章 用户行为数据采集系统...................................... 14
Python 是一种面向对象的解释型程序设计语言。Python 有着强大而丰富的库资源,可以把其他语言制作的各种模块连接起来应用,很多 3D 游戏中的渲染模块就是用 C 语言重写,再用 Python 封装成为易于调用扩展的库,因此 Python 还有一别名叫胶水语言[35]。
Python 语言的简洁性逐渐成为最受欢迎的程序设计语言之一,程序新手十分容易上手学习,而且为了让程序员养成良好编程的习惯,Python 语言有意让违反缩进原则的程序不能通过编译,和大多数编程语言使用大花括号是不一样的[36]。
Python 语言的简洁性逐渐成为最受欢迎的程序设计语言之一,程序新手十分容易上手学习,而且为了让程序员养成良好编程的习惯,Python 语言有意让违反缩进原则的程序不能通过编译,和大多数编程语言使用大花括号是不一样的[36]。
本文中在完成数据迁移以及数据预处理阶段都自行编写 Python 代码完成分析处理。在处理成千上万的原始数据时,Python 展现了极大的优势,可能运用 C 语言处理需要 3000 行代码,使用 Python 批量处理只需编写 20 行代码就能轻松搞定,大大提高的处理效率。
...............................
3.1 行为数据采集系统需求........................................14
3.1.1 拟采集的数据............................................ 14
3.1.2 用户行为采集流程..................................... 15
第四章 用户认证...................................... 32
4.1 数据预处理.....................................32
4.2 基于时间序列的用户认证...........................34
第五章 总结与展望.................................... 50
5.1 总结............................................50
5.2 展望.............................................50
第四章 用户认证
4.1 数据预处理
通过用户行为数据采集系统采集到的大量数据不能直接用于分析,这些都是手机本身状态最原始的数据,而用户手机在实际生活中经常会受到各种环境因素或者人为因素的干扰,比如即使用户手持手机静止时,身体也存在微小抖动,此时数据存在的微小误差是无法避免的。但是我们可通过一些处理方法尽可能的减少误差和降低噪声,提高用户认证的准确度。
数据预处理有很多种方法,常见的处理有数据清理,数据集成,数据去噪和数据转换。数据清理是指将缺失值补全,异常值去除。数据集成是把许多个数据源合并到数据仓库中,比如说把数据集中到数据库中。数据去噪是将用户的抖动或传感器精度出现的噪声干扰减轻。数据转换是将数据状态变化通过同等方式表示出来,让数据表示更为规范。
...........................
第五章 总结与展望
5.1 总结
目前移动互联网已经迎来全面高速发展的盛景,电信网、计算机互联网和有限电视网的不断的融合加速,再加之各种移动互联网应用的不断涌增,使移动互联网中的安全问题日益突出,用户手机的个人隐私、新兴网络业务涉及的财产等安全问题面临着极大的挑战,对智能手机用户进行更有效的身份认证是一种不错的防范措施。具体的研究工作可以简述为以下几点。
1.对当前国内外用户认证研究问题进行分析探讨,并分析常用的手机用户认证方法进行的优缺点,提出通过分析手机用户的行为习惯,在手机使用过程中进行用户认证,以此来作为传统用户认证方式的一种补充,保护用户信息安全。
2.设计了一个用户行为数据采集系统,并在 Android 系统上部署,针对不同用户长时间循环采集用户行为数据,并通过 Python 脚本迁移到数据库中,方便后期处理分析。
3.对采集数据进行清理、集成、去噪等预处理。对加速度传感器、网络了流量信息等数据构成时间序列进行统计学特征计算,重组的时间序列通过 DTW 算法两两不同用户或者相同用户计算相似度区分用户,在手机使用过程中明确可以判断是机主还是非机主,对用户身份进行有效认证。
4.为进一步提高用户认证准确度,针对手机用户接听电话过程中的传感器数据的变化,提取均值方差、最大最小值、波峰波谷等特征值,通过 SVM 算法对用户分类,能准确完成用户认证。并通过与贝叶斯算法、决策树分类算法对比,其SVM 算法用户认证的效果最优,分别达到了 85.9%的准确率和 83.5%的召回率。
参考文献(略)