第一章 绪论
1.1课题研究背景与意义
21 世纪是信息的时代,互联网技术的发展给我们的生活带来了翻天覆地的变化,极大的推动了人类社会的进步。但是任何事物都有两面性,我们一方面享受着信息时代的巨大便利,另一方面也发现网络犯罪的日夜猖獗。对个体而言,个人信息的泄露,网络支付的风险,对企业而言,互联网发展对传统行业的安全提出了新的要求,用户数据的盗取给企业造成了巨大的损失。传统犯罪行为更借网络传播的“东风”,大有“燎原”之势,产生了新的特点、新的方式、新的载体,形成了新型的网络犯罪。此类犯罪由于其依托于网络,隐蔽性较强,仅依靠传统的案件侦办方式已然无法适应其迅猛的发展态势。新型的网络犯罪,其迷惑性强、传播速度快、犯罪智能化的特点,使其成为公众安全的新威胁。但是网络世界的虚拟性与匿名性给案件的侦破带来了巨大的困难,人们处于对自身隐私的保护往往不愿意提供详细的个人信息,并且很多网站也支持用户以未登录的方式进行部分网络活动。与此同时犯罪分子往往还通过伪造身份、加密通信等等手段来干扰公安机关对他们的定位与识别。因此如何将虚拟空间中的身份与现实世界中的人进行映射,即网络实体可信身份的识别在公共安全领域有着重大的作用。
1.1课题研究背景与意义
21 世纪是信息的时代,互联网技术的发展给我们的生活带来了翻天覆地的变化,极大的推动了人类社会的进步。但是任何事物都有两面性,我们一方面享受着信息时代的巨大便利,另一方面也发现网络犯罪的日夜猖獗。对个体而言,个人信息的泄露,网络支付的风险,对企业而言,互联网发展对传统行业的安全提出了新的要求,用户数据的盗取给企业造成了巨大的损失。传统犯罪行为更借网络传播的“东风”,大有“燎原”之势,产生了新的特点、新的方式、新的载体,形成了新型的网络犯罪。此类犯罪由于其依托于网络,隐蔽性较强,仅依靠传统的案件侦办方式已然无法适应其迅猛的发展态势。新型的网络犯罪,其迷惑性强、传播速度快、犯罪智能化的特点,使其成为公众安全的新威胁。但是网络世界的虚拟性与匿名性给案件的侦破带来了巨大的困难,人们处于对自身隐私的保护往往不愿意提供详细的个人信息,并且很多网站也支持用户以未登录的方式进行部分网络活动。与此同时犯罪分子往往还通过伪造身份、加密通信等等手段来干扰公安机关对他们的定位与识别。因此如何将虚拟空间中的身份与现实世界中的人进行映射,即网络实体可信身份的识别在公共安全领域有着重大的作用。
对于人类行为的思考由来已久,早在中国古代就有三人成虎,曾参杀人的典故。这与现代对人类群体从众心理和群体压力的研究可谓不谋而合,这些都是对于人类心理层面的研究。而现在人类行为的研究以统计学为基础,主要关注的是人的日常行为模式。这与心理学的研究有着显著区别,例如对于电子邮件这一行为,心理学关注的是为何要收发邮件,与其他人邮件通信的心理活动是什么。人类行为研究的则是发送和回复邮件行为的统计规律,比如发送邮件的时间间隔的幂律分布,并在此基础上研究相应的动力学机制,例如在某个时刻统一回复邮件,重要的邮件优先回复等。
.....................
1.2国内外研究现状
国内外近几年开始关注网络可信身份研究,其中美国国防高级研究计划局(DARPA)就已经开始研究网络“基因”技术[1],
.....................
1.2国内外研究现状
国内外近几年开始关注网络可信身份研究,其中美国国防高级研究计划局(DARPA)就已经开始研究网络“基因”技术[1],
DARPA 领导的网络“基因”项目通过从计算机系统和网络中获取的数据,对网络实体的可信身份进行识别,从而锁定网络攻击的源头。我国也在 2017年立项开始研究,有关实验正在进行。作为本文的作者也参与了该项目的研究工作,同时本文也是选题于该项目。目前国内外网络“基因”的相关文献非常少,国内仅有董新民等人提出“网络基因图谱”的概念,介绍了网络“基因”图谱的一些相关概念[2]。比如网络“基因”技术的起源、定义以及组成等。他们认为不同于当前的网络实体标识和识别,网络“基因”是对网络实体的网络行为的抽象和本质刻画。但是关于如何定量的进行计算,如何构建行为“基因”片段,如何进行“基因”片段的拼接等都还没有给出具体的可行方法。虽然在国内外发表的关于网络“基因”图谱的研究稀少,但现有的很多研究也在一定程度上表明了网络“基因”研究的合理性。例如网络实体在网络上言论的语言风格、网站的登录频率、社交 APP的在线分布时间、手机通信的移动轨迹以及话题偏好等数据都可以用于区分不同的自然人。 网络“基因”的研究离不开对人的行为规律的研究。BARABASI 等人通过对人在网络活动和出行活动中表现出来的阵发性和记忆性进行分析,用于反恐行动中对恐怖分子的非正常的频繁跨国行为的定位[3]。de Montjoye Y A, Hidalgo C A 等人在论文中研究了用手机数据结合域外少量的数据,在给出打电话时四个准确的时间-地点对就能够比较准确的确定打电话人的身份[4]。基于移动通信的基站和人的空间行为特性的分析可以很好的预测人下一步的行动[5]。网络的语言分割,在线时间分布等数据可以推测网络实体的年龄[6,7]、政治观点[8]、收入[9]、社会地位[10]等。Sadilek [11]等研究了 Twitter 用户的用户轨迹预测问题,通过该用户的社交网络分析其好友的地理位置,运用动态贝叶斯(DBN)模型,对用户的轨迹进行预测,实验结果表明这种方法可以很好的预测用户的移动轨迹。Facebook 的信息泄露事件中,剑桥分析(Cambridge Analytica)利用 Facebook 用户的行为数据,找出符合某种特定心理画像的选民,然后针对这些容易被影响的选民投放大量的广告,进行信息轰炸,达到操纵美国大选的目的。而这一切的源头是 Michal Kosinski 和 Stillwell 在 2013 年发表的一篇文章,他们通过用户的行为数据建立模型,对用户的性别、性取向和党派进行预测,并且得到了较高的预测准确率[12]。紧接着他们又通过用户的电子足迹预测用户的性格、政治倾向和购买意愿,得到的预测结果比用户自己的好友还要准确[13]。Niculae V 等人[14]研究了领导的演讲新闻文章数据集,提供了对政治媒体报道结构的分析,揭示了一个潜在的媒体偏见空间,与政治意识形态和出路类型完全吻合。
..........................
第二章 背景知识
2.1生物基因
网络“基因”的稳定性、唯一性、多样性和突变性以及基本结构都与生物基因较为相似,因此将这些性质引入到网络“基因”的概念中,而对于生物基因的遗传、复制、互补配对等特性,暂时还没有引入到现阶段网络“基因”的研究中。
第二章 背景知识
2.1生物基因
网络“基因”的稳定性、唯一性、多样性和突变性以及基本结构都与生物基因较为相似,因此将这些性质引入到网络“基因”的概念中,而对于生物基因的遗传、复制、互补配对等特性,暂时还没有引入到现阶段网络“基因”的研究中。
DNA 即脱氧核糖核酸是沃森和克里克提出提出的人类“基因”结构。他们将人类基因描述为两条螺旋缠绕的结构。DNA 结构的提出使得对人类“基因”的研究第一次进入分子时代,极大地推动了人类对自身的研究。基因的结构决定了它可以进行剪切编辑等操作,光和基因剪刀技术的发明让生命体基因的剪切编辑操作成为了现实,从而让生命再生、生命复制成为了可能。
DNA 虽然是生物学上的概念,但是有越来越多的学者将它引入到其它领域,提出了许多跨领域的成果。例如 1975 年 Hoolland 提出的 GA(Genetic Algorithm)算法,就是运用基因遗传的概念,基于自然群体遗传演化机制,抽象生物进化过程的算法。GA 算法利用编码技术作用于称为染色体的数串,模拟基因的复制,变异,交叉来实现最佳化搜索。 实践表明,遗传算法解最优化问题的计算效率比较高、适用范围相当广。为了解释这一现象,Holland 给出了图式定理。所谓图式,就是某些码位取相同值的编码的集合。图式定理说明在进化过程的各代中,属于适应度高、阶数低且长度短的图式的编码数量将随代数以指数形式增长。另外,Holland 还发现遗传算法具有隐含的并行计算特性。
近年来,学者们对遗传算法进行了深入的研究,它的应用越来越多,所以有越来越多的人认识了解了遗传算法,例如机器学习、工业优化控制、模式识别、神经网络、图像处理和社会科学等方面就是当前的研究热点。遗传算法特别是在解决旅行商问题、管道的最优化处理、优化网络链接的长度、物流的配置与优化、涡轮发动的研究设计和键盘排列优化等问题上遗传算法都取得了很大的成功。

........................
2.2 人类动力学
人类动力学主要的研究对象是人类日常活动的行为模式,以真实数据为基础挖掘人类行为的统计规律并建立相应的动力学机制,从客观的角度对无干预的数据做定量分析。大体的流程为观察人类行为;数据的采集与处理;分析数据以挖掘统计规律;分析相应的动力学机制;并对这个过程不断进行迭代已得到最后的结果。
对于人类行为模式的研究一直是复杂性科学研究的热点,在处于大数据时代的当今社会,海量的数据由人类活动产生,也势必要将其应用与对人类行为的研究,由此催发了人类动力学的产生。对人类活动的研究最早从 Watson 就已经开始研究了,到现在已经超过百年。对人类行为的研究对于很多其他领域都有着重大意义。这是因为大量的复杂系统与人类行为密不可分,互相影响。例如人类社会就是一个复杂的系统,而它是受到人类意志支配的;人在金融系统的变化中也占据主导地位,社会财富的分配与流动必须以人为载体;信息时代的全球互联网是由人建立的,其底层逻辑是人类编写的;而人类自身的神经系统就是最复杂的系统之一。
对人类行为研究的转折点是 Barabási 在 2005 年发表在 nature 的一篇文章[21],在这篇文章中 Barabási 等人通过分析人类真实行为数据,提出了一个新模型,用任务优先级的排队论来解释幂律特性的成因,引起了学术界对于人类动力学的广泛讨论。人类动力学对于个体行为习惯的研究可以帮助我们进行推荐和预测。


........................
2.2 人类动力学
人类动力学主要的研究对象是人类日常活动的行为模式,以真实数据为基础挖掘人类行为的统计规律并建立相应的动力学机制,从客观的角度对无干预的数据做定量分析。大体的流程为观察人类行为;数据的采集与处理;分析数据以挖掘统计规律;分析相应的动力学机制;并对这个过程不断进行迭代已得到最后的结果。
对于人类行为模式的研究一直是复杂性科学研究的热点,在处于大数据时代的当今社会,海量的数据由人类活动产生,也势必要将其应用与对人类行为的研究,由此催发了人类动力学的产生。对人类活动的研究最早从 Watson 就已经开始研究了,到现在已经超过百年。对人类行为的研究对于很多其他领域都有着重大意义。这是因为大量的复杂系统与人类行为密不可分,互相影响。例如人类社会就是一个复杂的系统,而它是受到人类意志支配的;人在金融系统的变化中也占据主导地位,社会财富的分配与流动必须以人为载体;信息时代的全球互联网是由人建立的,其底层逻辑是人类编写的;而人类自身的神经系统就是最复杂的系统之一。
对人类行为研究的转折点是 Barabási 在 2005 年发表在 nature 的一篇文章[21],在这篇文章中 Barabási 等人通过分析人类真实行为数据,提出了一个新模型,用任务优先级的排队论来解释幂律特性的成因,引起了学术界对于人类动力学的广泛讨论。人类动力学对于个体行为习惯的研究可以帮助我们进行推荐和预测。

......................
第三章 网络“基因”的定义和研究方法 .......................... 18
3.1网络“基因”概念的提出与意义 ................................ 18
3.1.1 网络“基因”概念的提出 ....................................... 18
第四章 三种网络行为“基因”的研究 ...................................... 26
4.1即时通信行为 ...................................... 27
4.1.1 数据源分析 .............................................. 27
4.1.2 即时通信行为“基因”片段 .......................................... 28
第五章 网络行为“基因”的相似性度量 .......................................... 40
5.1“基因”片段的符号化 ........................................... 40
5.2“基因”片段的相似性度量 ......................................... 41
第五章 网络行为“基因”的相似性度量
5.1“基因”片段的符号化
符号化指的是将“基因”片段中的数据进行符号化处理。这样做的好处大大地缩小存储规模,又能有效地表示行为特征。这部分内容在第三章已经有所涉及,表 4.1 对行为类型的符号化和表 4.2 对于各种分布的符号化表示都是符号化工作的一部分。
图 4.4 中的片段类型的符号已在表 4.1 给出,操作方码址为唯一表示实体的信息如帐号、密码、手机等数据。子片段编码为行为“基因”根据时间区间划分的“基因”片段的编码,其结构为行为编码+时间。例如在时间区间 2016 年 12 个月份的即时通信行为的子片段编码为 BB201601, BB201602 , … , BB201612。该时间段的行为记录总数与子行为记录数直接记录行为发生次数,例如 2016 年 12 月该实体远程操作行为共 100 次,其中通过 FTP 操作 46 次,TELNET 操作 54 次,则记录为 100、46、54。
24 小时时段编码为该行为在 24 个小时分别发生的次数,目前只在手机通信与即时通信行为中进行统计,第一行统计的是该时间区间内实体该行为的 24 小时行为分布,关系人一栏统计的是对于每个关系人的行为的 24 各时段的行为分布。为了减少存储空间,对该字段进行符号化。对于任一时段若该行为发生 0 次则在该时段对应的位置填上 0,若该时段行为发生 1次到 10 次之间,则在对应位置填上 A,若该时段行为发生 11 次到 20 次,则在对应位置填上B,21 次到 40 次填上 C,41 次到 80 次填上 D,以此类推每次长度增长一倍。如此可以得到一个 24 位的字符串编码,例如 BAA0ACCDDFFGDDCCFFFDDCBB,将其填入 24 小时时段编码一项。
......................
第六章 总结与展望......................
6.1本文总结
人类社会的发展日新月异,互联网技术的发展在其中起了巨大的推动。互联网已经渗透到人类生活的方方面面。人们在网上与亲朋好友联系;通过购票软件购买火车票和飞机票;通过点评软件吃喝玩乐。我们几乎可以通过互联网做到大部分事情,出门时一部手机就可以解决衣食住行问题。
虽然互联网给我们的生活带来了巨大的便利,但我们也注意到它也有着弊端。目前个人隐私的泄露问题越来越严重,不法分子只需要花费少量金钱就可以购买到大批的用户数据。这些数据被犯罪分子用来进行诈骗、传销。这些传统的犯罪行为依托互联网平台有着愈演愈烈的趋势。犯罪分子往往注册多个帐号,通过帐号的匿名性躲在网络后面,并且经常性的更换 IP,这对警察部门的侦破造成了很大的困难,因此急需一种识别网络实体身份的技术。网络“基因”就是为了解决这一问题提出的新概念。具体的研究成果如下:
(1)给出了网络“基因”的定义与具体研究逻辑。网络“基因”是受生物基因的启发结合人类动力学,社会心理学的跨学科的新领域。基于实体现实空间和网络空间中的数据,分为身份“基因”和行为“基因”两部分。身份“基因”由确定性身份“基因”片段、虚拟身份片段和生物特征片段组成。确定性身份“基因”包括身份证、护照、军(警)官证、学位证、毕业证、户籍号、港澳通行证、社保号、居住证、学籍号。虚拟身份片段包括电话号、QQ 号、微信号、邮箱号、微博号、银行卡号等。生物特征片段包括声纹、指纹、虹膜、血型等。行为“基因”包括手机通信片段、即时通信片段、电子邮件片段、出行片段、网络购物片段、寄递片段、微博片段、远程操作片段等。对这些数据进行处理,分析提取出可以表征实体特性的数据。将这些数据作为该实体的“基因”片段,然后将互相独立的行为“基因”片段组合起来作为实体的行为“基因”,其中不同的“基因”片段与不同的行为特征一一对应。最后得到网络“基因”可以唯一标识实体,反映实体的本质特征。总体上网络“基因”的产生方法为基于社会行为心理学和分类学理论,遵循数据分类数据语义分类到行为特征分类再到行为分类最后心理分类的认知主线,至上而下进行概念分解,至下而上进行数据归纳。通过对各级处理结果的概念化和符号化,映射出具有唯一性、稳定性、可追加、可解释的网络“基因”编码。
参考文献(略)