数据挖掘技术在构建学生成绩预警系统的应用

时间：2022-04-12 08:31:24 浏览次数：次

摘要：该文运用数据挖掘中关联规则技术，研究了高校学生不及格课程之间的关联性，给出了学生成绩预警系统的理论化模型。为教育工作者及早发现和帮助问题学生提供了一个范例。

关键词：数据挖掘；预警系统；关联规则

中图分类号：TP311文献标识码：A 文章编号：1009-3044(2011)19-4529-02

随着数据挖掘技术在商业领域获得的成功和广泛应用，近年来，越来越多的教育工作者开始利用数据挖掘技术对历史积留下来的海量教学数据库进行研究，并获得了许多有价值的成果。仅以学生成绩数据库为例，众所周知，学生的学习成绩并不是一个偶然事件，以前的成绩数据往往预示着该生在后续课程中的成绩走向。例如，一个电磁学不及格的学生，很可能其电动力学也会出现不及格。这种现象给了我们一些启示，能否从大量的学生成绩数据中挖掘课程之间的成绩关联，构建一个成绩预警系统呢？目前，许多高校已开始加强对“学困生”的全面监督和尽力帮扶，如果在此之前，我们能根据一个学生的前期课程的考查结果分析出他本学期有可能出现不及格的课程，从而提早介入对他该课程的学习监管，无疑是一件很有意义的工作。以下就数据挖掘中的关联规则技术来浅要分析其在学生成绩预警系统中的实现。

1 关联规则概述

若两个或多个变量的取值之间存在某种规律性，就称为关联。关联规则的挖掘问题可形式化描述如下：设I{i1,i2,…,im}是m个不同项目的集合，D是针对I的交易的集合，每笔交易包含若干项目i1,i2,…,im ∈I。则关联规则X=>Y成立的条件是：

1）它具有支持度s,即在交易数据库D中至少有s*100%的交易包含X∪Y。

2）它具有置信度c,即在交易数据库D中包含X的交易至少有c*100%也包含Y。

关联规则的挖掘问题就是在交易数据库D中找出所有具有用户给定的最小支持度minsup和最小置信度minconf的规则来。该问题可以分解成两个子问题：

1）找出存在于交易数据库中的所有频繁项目集。若项目集X的支持度support(X)不小于用户给定的最小支持度minsup,则称X为频繁项目集；否则为非频繁项目集。

2）利用频繁项目集生成项目关联规则。对于每个频繁项目集A，若B∈A，B≠Φ，且support(A)/support(B)≥minconf,则有关联规则B=>(A-B)。

由于子问题2相对来说较容易，因此研究的重点集中在第1个问题，即发现和识别所有的频繁集成为关联算法的核心，而这其中最有名的是Apriori算法。该算法是一种宽度优先算法，通过对数据库的多趟扫描并采用递推的方式来发现所有的频繁项目集。尽管该算法在处理大规模数据集时还存在瓶颈，但通过剪枝和其他改良手段等已经使该算法得到了普遍应用。

2 通过预处理建立分析数据源

要对学生的不及格成绩数据进行挖掘，首先要有大量的有效数据。笔者从中国科技大学的学生成绩数据库中取出物理学院05级到07级本科生的原始成绩数据表203.mdb文件来进行挖掘，并对其进行了一系列预处理工作，如图1。

1）删除无用字段和记录

原始数据表（图1）中的字段并非都对挖掘有用，我们只选取感兴趣的xuehao（学号）, kc_code（课程号）, Score（成绩）三个字段。另外，由于我们只对不及格的必修课程感兴趣，因此要删除所有的选修课记录和全部课程都及格的记录，得到初步预处理后的数据表（图2）。

对照照中国科大物理学院本科培养方案我们挑选出17门主干必修课程来进行挖掘研究，并分别给这17门课程以A~Q的17个字母来标识，如表1所示。

我们只需保留原始数据表中Kc_code值为上述的17个值的记录即可，其余为无用记录可做删除。

2）建立待挖掘数据表

由于表中成绩已经全部是不及格数据，故无需做特别的离散化处理，只需要将对应的不及格成绩的课程在记录中予以简单标记即可。为了清晰起见，我们将Kc_code字段和score字段合成一个字段KS，其值则代表了不及格的课程的对应标识。例如，用A表示“单变量微积分不及格”。此时数据表形式如图3所示。

通过以上预处理虽然可得到形如图3的简单的待处理数据，然而最终待挖掘的数据表应该是按学号不同排列成的事务表。我们可以先创建该表的结构，再将图3所示的数据表内容转换进来。首先创建该表，表名为mydata0，表结构如表2。

再将原先的数据表（图3）中的xuehao字段按相同值归并，并把该xuehao字段对应的所有KS字段值填入表mydata0中。最终生成的表mydata0(图4)即为只含不及格成绩的待挖掘数据表。

3 成绩预警系统的模型建立与分析

为简单起见，笔者使用目前较流行的数据挖掘工具软件WEKA对数据表mydata0进行了挖掘，得出的关联规则结果如表3所示（设minsupp=0.1,minconf=0.4) 。以表3得出的关联规则为基础即可生成成绩预警系统的模型（图5）。

本模型给出了以下有价值的结论：

1）L，P，Q这三者之间有极高的强关联性。这三门课程分别是电磁学、理论力学和电动力学。当一个学生其中任意两门出现不及格的分数时，有70%以上的概率使得其另一门课程也会不及格。这给我们以启示：在安排教学计划时，尽量不把这三门课放在同一学期，以避免学生同时出现“挂科”。例如可将引发成绩预警的所有规则中置信度最高的L课程（电磁学）提到大一的下学期，而将P，Q这两门课（理论力学和电动力学）推到了大二的上学期学习。实践证明，这对及早发现“学困生”并给予及时的帮扶或学习态度上的纠正起到了良好的作用。

2）应用该预警模型不但可在学生一门课程出现问题后向学生本人提出警示，更能及时提醒班主任老师密切关注该生与之相关的后续课程的学习情况，动员学习帮扶小组对他提早介入帮助。

3）P课程在预警系统中出现的次数最多。可见理论力学这门课程是物理类学生在低年级阶段较易发生问题的关键性课程。在教学管理中应当加强对理论力学课程的教学质量检查与监督。

4）在minsupp=0.1,minconf=0.4的条件下，并未得出A==>B和C==>D这样的规则，这点有些出乎意料，但恰恰向学生说明了数学，英语这些基础课程只要肯下功夫，完全可以摆脱原来差成绩的影响。由于地域等因素的差别，学生刚进高校时的学习基础参差不齐，有的学生可能原先基础较差。从预警模型中的关联规则可以看出，这对后续的课程并无绝对的影响，只要肯努力追赶完全有可能脱离“差”生的队伍。这对鼓励那些大一刚进校成绩就较差的落后学生，为他们树立信心提供了科学根据。

4 结束语

该文应用数据挖掘中的关联规则技术，对学生成绩数据库中的不及格数据进行了挖掘，并在此基础上建立起学生成绩预警系统的模型。实践证明，该模型对于在高校中提早发现和监管“学困生”的工作起到了良好的效果。

参考文献：

[1] 宫杰, 谭跃生, 李慧萍. 数据挖掘技术在高校教务管理中的应用[J].科技信息,2010(13).

[2] 董彩云，刘陪华. 数据挖掘在学生成绩管理系统中的应用[J].现代计算机,2009(2).

[3] 董军凯. 数据挖掘技术在成绩分析中的应用[J].科技资讯,2009(22).

[4] 张志彦, 李俊峰. 关联规则挖掘在学生成绩分析中的应用[J].科技和产业,2009(5).

[5] 邱月. 数据挖掘方法在学生成绩评价中的应用[J].科技信息.2008(9).

[6] 董萍. 关联规则在学生成绩中的数据挖掘[J].三门峡职业技术学院学报,2009(12).

[7] 刘美玲, 李憙, 李永胜. 数据挖掘技术在高校教学与管理中的应用[J].计算机工程与设计,2010,31(5).

[8] 邓砚谷, 佘颖. 基于关联规则的高校课程关联性分析[J].现代教育技术,2010(5).

注：本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文

推荐访问： 预警系统 构建 数据挖掘 成绩学生

[数据挖掘技术在构建学生成绩预警系统的应用]相关文章

上一篇：浅谈独立学院《大学物理》课程改革
下一篇：电场和电磁场中力与运动及实验中数学方法的模型构建

[数据挖掘技术在构建学...]头条范本