第一章 绪论
1.1 研究背景及意义
随着社会的进步和科技的发展,人们的生活日渐网络化和数字化,信息管理系统取代了传统的文本记录方式,随之而来的是记录人类日常行为轨迹的数据呈直线 n 式增长。在教育特别是在学校教育中,学生的行为数据日益成为教学改进最为显著的指标。教育数据挖掘(Educational Data Mining,EDM)作为一种从海量用户学习行为数据中挖掘潜在信息的技术,已经在科研、商业、金融等领域得到广泛应用。2012 年,美国教育部发布的蓝皮书《通过教育数据挖掘和学习分析促进教与学》标志着 EDM 已受到广泛关注[1]。2018 年,国家自然基金新增教育信息科学的课题申请,设单独一个二级代码。随着高校信息化建设的不断深入,各所大学在利用信息化所聚集和累积起来的学生行为数据方面有了更高的需求,同时,教育信息化本身已经成为当今高校教育管理的必要措施和手段[2]。
1.1 研究背景及意义
随着社会的进步和科技的发展,人们的生活日渐网络化和数字化,信息管理系统取代了传统的文本记录方式,随之而来的是记录人类日常行为轨迹的数据呈直线 n 式增长。在教育特别是在学校教育中,学生的行为数据日益成为教学改进最为显著的指标。教育数据挖掘(Educational Data Mining,EDM)作为一种从海量用户学习行为数据中挖掘潜在信息的技术,已经在科研、商业、金融等领域得到广泛应用。2012 年,美国教育部发布的蓝皮书《通过教育数据挖掘和学习分析促进教与学》标志着 EDM 已受到广泛关注[1]。2018 年,国家自然基金新增教育信息科学的课题申请,设单独一个二级代码。随着高校信息化建设的不断深入,各所大学在利用信息化所聚集和累积起来的学生行为数据方面有了更高的需求,同时,教育信息化本身已经成为当今高校教育管理的必要措施和手段[2]。
中国高校校园一卡通系统的应用已经深入到在校学生学习动态和生活轨迹的全方位中,这些数字化信息以文本的方式被完整的记录下来,对教育管理者分析学生的活动痕迹具有一定的现实意义。教育领域中的大数据分析的最终目的是为了改善学生的学习成绩[3],促进学生的全面发展,而每个学生都是独立的个体,具有不同的行为特点与动机。例如,想要获得平均学分绩点(Grade Point Average,GPA)高分的学生可能拥有非常规律的生活(比如在特定时间段去图书馆、自助餐厅),因此他们需要努力攻克所选修的课程。通过探索学生的行为数据,可以研究他们是否在学习方面打算投入更多的时间。由于学生的行为具有直观性,可以更直接更快速地判断结果,不要在学期末发现学生的学习和生活问题时才做出行动。在此基础上,本文研究从学生的校园行为中来讨论学生成绩的预测方法,这些方法能够更加关注与识别学业成绩不佳的学生,同时可以使教育工作者获得早期反馈并及时采取干预措施,以期提高学生的成绩。
.............................
1.2 研究现状
在全球大数据蓬勃发展的今天,随着“互联网+教育”的大力推进,海量的教育大数据伴随着众多教育管理系统的出现应运而生。数据挖掘作为最流行的应用技术之一,已经深入到金融、电商、医疗等各行各业的发展中。但数据挖掘以及机器学习技术在教育领域中应用时间较晚,相关的算法还在探索之中,大多数研究更侧重于简单统计分析而非改进。成绩预测是教育大数据重要研究内容之一,是通过现有数据预测学生未来的学习表现,例如成绩,排名等。高等教育机构的主要目标是为学生提供优质的教育,并提高管理决策的质量。从教育行为数据中发现有用的知识,研究可能影响学生表现的主要属性,能够对学生行为和学业表现监测提供支持,提高教学效果。接下来对教育数据挖掘和学生行为分析的研究现状进行详细介绍。
1.2.1 教育数据挖掘研究现状
在教育领域中,随着不同终端设备的数字化、科学化的电子学习系统的日渐普及,自然而然带来的是数据库系统中记录的行为数据具有多样性与海量性的特点,这使得教育大数据的应用价值日趋突显。教育数据挖掘致力于探索来自教育环境中的独特教育技术方法,并使用这些方法更好地了解学生及其学习的环境。美国一家民间研究机构在一份报告中断定:“大数据将会为教育领域带来重大变革,因为大数据的引入使得对于学生的日常表现和学习状态信息的动态获取成为可能,而不用像以往那样需要通过固定时间的某些测验;通过大数据分析,教育工作者们可以实时的掌握学生的动态,及时对学生进行引导”[3]。近几年,在教育信息化、远程教育、智慧教育和翻转课堂等应用的推动下,教育数据挖掘领域开始引起广泛的研究者的兴趣与关注。如图 1-1 所示,教育数据挖掘技术涉及的主要学科包括技术教育学、统计学、计算机科学、心理计量学、信息可视化等数个学科的交叉性技术,处理教学实践中的实际需求并进行深入思考与研究。

............................
本文的研究内容中,运用循环神经网络的序列模型对短期校园行为序列进行特征建模,并结合应用数据挖掘技术探索学生行为与学业成绩的内在关联。
2.2.1 循环神经网络概述
在全球信息技术高速发展的今天,循环神经网络正处于深度学习领域中众多最新发展的最前沿。该网络是由美国物理学家 J.J.Hopfield 在 20 世纪 80 年代提出,是一类具有短期记忆能力的神经网络,它最初用作联想存储器的 Hopfield 神经互联网络模型。在循环神经网络中,神经元不但可以接受其它神经元的信息,也可以接受自身的信息,形成具有环路的网络结构[49]。
相比较其他网络,如人工神经网络(ANN)、卷积神经网络(CNN),生成式对抗网络(GAN),循环神经网络的不同在于它能够实现某种“记忆功能”,能够有效的挖掘数据中的时序信息以及语义信息。循环神经网络基于时间序列的特性,最先在自然语言处理领域中被应用起来,之后在语音识别(如车载音响语音控制系统、iPhone 的 Siri 应用)、个性化推荐(如网易云音乐歌单推荐、腾讯视频推荐)等众多领域大放异彩。
2.2.2 循环神经网络研究现状
在全球大数据蓬勃发展的今天,随着“互联网+教育”的大力推进,海量的教育大数据伴随着众多教育管理系统的出现应运而生。数据挖掘作为最流行的应用技术之一,已经深入到金融、电商、医疗等各行各业的发展中。但数据挖掘以及机器学习技术在教育领域中应用时间较晚,相关的算法还在探索之中,大多数研究更侧重于简单统计分析而非改进。成绩预测是教育大数据重要研究内容之一,是通过现有数据预测学生未来的学习表现,例如成绩,排名等。高等教育机构的主要目标是为学生提供优质的教育,并提高管理决策的质量。从教育行为数据中发现有用的知识,研究可能影响学生表现的主要属性,能够对学生行为和学业表现监测提供支持,提高教学效果。接下来对教育数据挖掘和学生行为分析的研究现状进行详细介绍。
1.2.1 教育数据挖掘研究现状
在教育领域中,随着不同终端设备的数字化、科学化的电子学习系统的日渐普及,自然而然带来的是数据库系统中记录的行为数据具有多样性与海量性的特点,这使得教育大数据的应用价值日趋突显。教育数据挖掘致力于探索来自教育环境中的独特教育技术方法,并使用这些方法更好地了解学生及其学习的环境。美国一家民间研究机构在一份报告中断定:“大数据将会为教育领域带来重大变革,因为大数据的引入使得对于学生的日常表现和学习状态信息的动态获取成为可能,而不用像以往那样需要通过固定时间的某些测验;通过大数据分析,教育工作者们可以实时的掌握学生的动态,及时对学生进行引导”[3]。近几年,在教育信息化、远程教育、智慧教育和翻转课堂等应用的推动下,教育数据挖掘领域开始引起广泛的研究者的兴趣与关注。如图 1-1 所示,教育数据挖掘技术涉及的主要学科包括技术教育学、统计学、计算机科学、心理计量学、信息可视化等数个学科的交叉性技术,处理教学实践中的实际需求并进行深入思考与研究。

............................
第二章 相关理论与技术
2.1 数据挖掘及基本算法概述
数据挖掘出现于 20 世纪 80 年代末,近十年在人工智能领域得到迅猛发展,已然成为大数据时代中各行各业中的一大热点。所谓数据挖掘技术是指从大型数据库中揭示出隐含的、有噪声的、随机的、先前未知的并具有潜在价值信息的非平凡过程[36]。通过数据筛选和数据预处理,帮助决策者分析历史数据以及当前数据,高度自动化地分析原有的数据,进行归纳性推理。
本文的研究内容中,运用数据挖掘技术,探究学生日常行为的模式与规律(如消费习惯、生活规律性、活跃度等),通过对学生校园行为数据研究与学业成绩相关的因素并进行分类预测。
2.1 数据挖掘及基本算法概述
数据挖掘出现于 20 世纪 80 年代末,近十年在人工智能领域得到迅猛发展,已然成为大数据时代中各行各业中的一大热点。所谓数据挖掘技术是指从大型数据库中揭示出隐含的、有噪声的、随机的、先前未知的并具有潜在价值信息的非平凡过程[36]。通过数据筛选和数据预处理,帮助决策者分析历史数据以及当前数据,高度自动化地分析原有的数据,进行归纳性推理。
本文的研究内容中,运用数据挖掘技术,探究学生日常行为的模式与规律(如消费习惯、生活规律性、活跃度等),通过对学生校园行为数据研究与学业成绩相关的因素并进行分类预测。
2.1.1 数据挖掘过程

..........................
2.2 循环神经网络序列建模技术
数据挖掘的过程其实是从大量的数据中挖掘知识的过程。在美国底特律市召开的第十一届人工智能联合会议的专题讨论会上,知识发现(Knowledge Discovery in Database,KDD)初次被科学家们提出,同时,也有人将知识发现称为数据挖掘,但两者并不完全等同[37]。数据挖掘已经建立起一套成熟的流程体系,如图 2-1 所示,数据挖掘的主要过程有:数据采集、数据预处理、特征提取、特征选择、数据挖掘、模型评估[38]。

..........................
本文的研究内容中,运用循环神经网络的序列模型对短期校园行为序列进行特征建模,并结合应用数据挖掘技术探索学生行为与学业成绩的内在关联。
2.2.1 循环神经网络概述
在全球信息技术高速发展的今天,循环神经网络正处于深度学习领域中众多最新发展的最前沿。该网络是由美国物理学家 J.J.Hopfield 在 20 世纪 80 年代提出,是一类具有短期记忆能力的神经网络,它最初用作联想存储器的 Hopfield 神经互联网络模型。在循环神经网络中,神经元不但可以接受其它神经元的信息,也可以接受自身的信息,形成具有环路的网络结构[49]。
相比较其他网络,如人工神经网络(ANN)、卷积神经网络(CNN),生成式对抗网络(GAN),循环神经网络的不同在于它能够实现某种“记忆功能”,能够有效的挖掘数据中的时序信息以及语义信息。循环神经网络基于时间序列的特性,最先在自然语言处理领域中被应用起来,之后在语音识别(如车载音响语音控制系统、iPhone 的 Siri 应用)、个性化推荐(如网易云音乐歌单推荐、腾讯视频推荐)等众多领域大放异彩。
2.2.2 循环神经网络研究现状
基于深度学习的序列建模旨在从序列项(如单词或产品)中捕获深度递归特征,已经在自然语言处理[50-52]和推荐系统[53-55]等多个热门领域得到了广泛的研究。例如,Li 等人[56]提出了一种混合循环神经网络模型,该模型运用注意力机制来捕获用户的连续偏好和当前会话的主要目的,完成基于会话的推荐任务。Liu 等人[57]提出了一种基于注意力的循环神经网络,考虑了输入和输出序列的所有可用信息,用于联合意图检测和插槽填充。在之前的研究中,Chung[58]等人采用了序列到序列的学习框架来学习可变长度声学特征序列的音频片段表示,并证明了该模型比其他相关的工作能够获得更好的检索性能。Zhu 等人[59]提出了一种新的 LSTM 变体来建模用户的连续行为,其中用户行为之间的时间间隔对于捕捉用户行为之间的关系具有重要意义。另一项研究[60]引入了一个神经网络结构,它处理输入序列和目标问题形成情景记忆,并生成相关的答案。
..............................
..............................
3.1 数据的采集与清洗............................. 23
3.2 学生行为特征提取................................ 25
3.3 学生行为数据分析................................ 26
第四章 面向校园行为序列建模的成绩预测实证研究.................. 31
4.1 问题定义................................ 31
4.2 概述................................... 31
4.3 基于注意力的短期行为序列特征提取................. 33
第五章 总结和展望............................. 43
第四章 面向校园行为序列建模的成绩预测实证研究
4.1 问题定义
基于序列的成绩分类预测(Sequence-based Performance Classifier,SPC)是通过对学生近期发生的序列行为(例如进出图书馆、打水、去食堂)进行分类来预测学生当前的成绩。
基于序列的成绩分类预测(Sequence-based Performance Classifier,SPC)是通过对学生近期发生的序列行为(例如进出图书馆、打水、去食堂)进行分类来预测学生当前的成绩。
本文提出的挖掘学生潜在行为特征并预测其学业成绩的方法是基于深度学习和数据挖掘算法的。具体来说,SPC 使用了两阶段分类器,该分类器由神经注意力编码器-解码器结构和 SVM 分类器组成。前者由基于 RNN 的编码器、注意力机制、序列特征生成器以及解码器构成。该任务的主要思想是构建行为序列的隐含表示,然后基于行为序列特征进行分类预测。RNN 是具有短期记忆能力的神经网络,与其他神经网络(如卷积神经网络(CNN))相比,它可以处理不同长度的序列。在这种网络结构中,神经元不仅可以接受其他神经元的信息,还可以接受其自身的信息。如图 4-1 所示,
(1)然后,与隐含状态集合h 一起,将注意力向量t? 一起馈入到序列特征生成器(即隐藏状态的输出),以在时间t 处实现解码(表示为tc )。注意到学生的主要目的或行为意图可能隐藏在他们一系列活动的背后。例如,一个学生计划在图书馆读书,但她也买一些食物或淋浴,她的主要目的隐含在她的行为背后。为了从学生当前的行为中吸引他们的主要注意力,将基于注意力的 RNN 引入本文的方法中,该方法已经成功应用于许多推荐系统。t? 的作用是决定哪个隐藏状态h 是相对重要的。但是,传统方法可能无法有效的捕获深层行为信息和主要意图。
(1)然后,与隐含状态集合h 一起,将注意力向量t? 一起馈入到序列特征生成器(即隐藏状态的输出),以在时间t 处实现解码(表示为tc )。注意到学生的主要目的或行为意图可能隐藏在他们一系列活动的背后。例如,一个学生计划在图书馆读书,但她也买一些食物或淋浴,她的主要目的隐含在她的行为背后。为了从学生当前的行为中吸引他们的主要注意力,将基于注意力的 RNN 引入本文的方法中,该方法已经成功应用于许多推荐系统。t? 的作用是决定哪个隐藏状态h 是相对重要的。但是,传统方法可能无法有效的捕获深层行为信息和主要意图。

.........................
第五章 总结和展望
随着计算机硬件技术的发展,在教育中应用数据挖掘技术是一个新兴的跨学科研究领域。教育数据挖掘的基本目的是表明学生的学习成绩,对学习者进行评价。因此,如何在海量的教育行为数据中对学生信息特征进行筛选和提取,分析行为特征与学业表现有何种的模式与关联,成为流行且亟需解决的主要问题之一。本文提出了一种数据挖掘系统,该系统可以根据学生在校园中的行为表现来预测他们的学习成功的可能性。行为数据来自一个巨大的数据库,该数据库收集学生使用其校园智能卡的数据。本文的主要工作包括:
(1)首先对目前学生行为分析和教育数据挖掘技术的国内外研究现状进行了总结,并进一步简单介绍了信息教育领域的基础算法与常用分类算法。通过探究当前学生成绩预测模型建模存在的问题以及重要性,分析了深度学习与序列建模的相关研究与应用。采用统计分析方法描绘了学生行为特点的主观性与差异性,既可以了解数据的构造,也可以更好的进行特征提取,找出行为数据中潜在的实际价值。
随着计算机硬件技术的发展,在教育中应用数据挖掘技术是一个新兴的跨学科研究领域。教育数据挖掘的基本目的是表明学生的学习成绩,对学习者进行评价。因此,如何在海量的教育行为数据中对学生信息特征进行筛选和提取,分析行为特征与学业表现有何种的模式与关联,成为流行且亟需解决的主要问题之一。本文提出了一种数据挖掘系统,该系统可以根据学生在校园中的行为表现来预测他们的学习成功的可能性。行为数据来自一个巨大的数据库,该数据库收集学生使用其校园智能卡的数据。本文的主要工作包括:
(1)首先对目前学生行为分析和教育数据挖掘技术的国内外研究现状进行了总结,并进一步简单介绍了信息教育领域的基础算法与常用分类算法。通过探究当前学生成绩预测模型建模存在的问题以及重要性,分析了深度学习与序列建模的相关研究与应用。采用统计分析方法描绘了学生行为特点的主观性与差异性,既可以了解数据的构造,也可以更好的进行特征提取,找出行为数据中潜在的实际价值。
(2)具体来说,本文利用校园行为数据的特点,对学生的学习行为、生活行为、消费行为进行刻画,争取建立起对学生传统行为模式较全面的认知,以期提高成绩预测的效果。在算法的使用上,不仅仅局限于单一算法,而是在充分考虑数据语义特征基础上选择多种算法对学生行为进行建模,测试不同算法之间的优越性,寻找最佳的多分类预测模型。
(3)在这项工作中,研究了学生行为和学业表现的问题,将学生的成绩预测任务视为一个短期序列建模问题。提出了一个两阶段分类器 SPC。具体来说,基于序列的表现分类器由基于注意力机制的混合循环神经网络和经典的支持向量机分类方法组成。其中,基本序列编码器能够有效的整合输入序列行为信息,而基于注意力的序列编码器能够自适应地捕捉学生的主要意图。为了将本文的方法扩展到实时场景,分析并应用了校园卡数据来完成本项的工作,与基准算法相比较,证明了学生行为的深度信息比传统行为特征具有更高的代表性,也证明了该分类器的有效性。
参考文献(略)
(3)在这项工作中,研究了学生行为和学业表现的问题,将学生的成绩预测任务视为一个短期序列建模问题。提出了一个两阶段分类器 SPC。具体来说,基于序列的表现分类器由基于注意力机制的混合循环神经网络和经典的支持向量机分类方法组成。其中,基本序列编码器能够有效的整合输入序列行为信息,而基于注意力的序列编码器能够自适应地捕捉学生的主要意图。为了将本文的方法扩展到实时场景,分析并应用了校园卡数据来完成本项的工作,与基准算法相比较,证明了学生行为的深度信息比传统行为特征具有更高的代表性,也证明了该分类器的有效性。
参考文献(略)