数据清洗技术在网络教学评价体系中的应用

时间：2022-03-30 08:20:40 浏览次数：次

摘要：描述网络教学的数据仓库中包含了从各种数据源导入的大量数据，数据的质量问题会直接影响教学评价的效果。针对学生重复信息的处理，文中提出了基于数据类型进行分词的策略，结合编辑距离算法可有效检测出重复的学生基本信息，实验结果表明该方法能有效提高算法的执行效率及检测精度。

关键词：相似重复记录分词编辑距离算法

中图分类号：TP311 文献标识码：A

An application of Data cleaning technology in network teaching evaluation system

Abstract：Data warehouse for network teaching includes a variety of data which are from different data sources,Data quality problem will directly influence the effect of teaching evaluation.Aiming at the processing of students duplicate information,an segment strategy based on data type is proposed.The similarity computation algorithm of edit distance is presented.The experiment results indicate that this method can detect approximately duplicated records effectually,the algorithm running efficiency and detect precision can be improved.

Keywords：Approximately duplicated records；Segment；algorithm of edit distance

1 引言

随着信息技术的不断发展，积极开展网络教学，是推进教学方法改革及提高教学质量的战略首选。网络教学评价体系指通过分析网络教学过程中的数据，对教学效果做出合理的评价。实践证明建立一个公平、合理的网络教学评价体系不仅能够提高学生网上学习的主动性，而且能够确保以学生为中心的教学过程的顺利进行。

由于能够评价学生学习状况的客观的电子信息不断增多，大量冗余的数据不可避免地存在很多异常。有统计表明，数据错误大约占到总数据量的5%，因此，数据质量问题可能直接导致网络教学评价体系不能产生理想的结果，甚至会产生错误的分析结果。文中将应用数据清洗技术改善数据质量，为网络教学评价体系提供保障。

2 数据清洗模型

描述网络教学的数据仓库中包含了从各种数据源导入的大量数据，它们的质量问题是制约数据仓库应用的“瓶颈”之一[1]，因此，应用电子信息对学生进行量化评价前需要应用数据清洗技术提高数据质量。

相似重复记录的识别与消除是数据清洗的一个关键问题。判断两条记录是否为相同实体，通常可以选取如姓名、身份证号、出生日期等有代表性的字段，将字段进行匹配后，再由这些字段组成的记录进行匹配。在网络教学中，学生提交作业的标识通常是描述学生的学号、姓名信息或是两者的混合体信息，为检测带来了一定困难，主要体现在重复记录的位置分离较远、增加了算法的复杂度及执行时间等三个方面。文中提出的基于数据类型的分词方法和有效权值模型可有效检测出重复的学生基本信息。

学生基本信息的相似度计算主要分为三个步骤：①将学生基本信息按数据类型分为数值型数据和字符型数据；②应用数值精确匹配方法及编辑距离算法计算各个字段的相似度；③对学号和姓名字段结合有效权值计算出记录的相似度即为学生信息的相似度。对结果

的判定，通常由用户根据经验设定一个阈值(如：0.8，可动态调整)，如果两条记录相似度超过该阈值，则表示二者是相似的。

3 重复信息的检测

3.1 分词算法

汉语自动分词是中文信息处理领域的一项关键技术，目前已经有很多种方法。考虑到描述学生信息的特殊性，应将信息按数据类型分割为数值型数据和字符型数据，即学号信息和姓名信息。

分词算法用VB语言描述如下：

sinformation=InputBox("please input data")

sno = "":sname=""

x=Len(sinformation)

For i=1 To x Step 1

temp=Mid(sinformation,i,1)

If Asc(temp)<=57 And Asc(temp)>= 48 Then

sno=sno+temp

Else

sname=sname+temp

End If

Next i

Print sno, sname

3.2 有效权值

字段的权值表明一个字段在决定两条记录相似中的重要程度[4]。学生基本信息中学号或姓名字段的缺失或部分缺失是形成重复记录的重要原因，如果采用逐个比较、权值累计匹配值的方法计算重复记录的相似度，则其精度会较低。利用有效权值可以消除由于字段缺失对判断记录相似性的影响。有效权值指当两条记录在第i个字段对应的值都不为空时，才进行字段的比较，此时权值称为有效权值；否则为无效权值[4]。

3.3 重复信息的检测

排序—合并是检测完全重复记录的标准方法[2]，目前已有的检测相似重复记录的方法也大多以该思想为基础，只是在排序对象的选取和记录进行比较的方法等方面有所不同[3]。判断两条记录是否为重复记录可以通过计算字段的相似度及其权值来计算记录的相似度[4]。

(1)字段的相似度

对于字符型的字段采用编辑距离算法[5]计算相似度，编辑距离公式[5]（当i=1…n；j=1…m时）如下：

计算去掉数字和字母后的两个字符串“辽宁黄河北大街号”与“辽宁省沈阳市黄姑区黄河北大街号”的编辑距离为ed(8,15)=7。

相似度的公式[4]如下：

Similar(X,Y)=1-ed(X,Y)/Maxdist(X,Y)

其中，Maxdist(X,Y)是字符串X，Y之间的最大距离。若两字符串的编辑距离为ed(8,15)=7，取两字符串的最大长度为15，因此相似度运算结果为1-7/15=0.533。

(2)记录的相似度

设某关系表中对应字段的权重分别为Ｗ1,Ｗ2,……,Ｗn，令SimilarField(x,y)[1],……,SimilarField(x,y)[n]为字段相似度，则两条记录X和Y的相似度公式为[4]：

对于分词后的数值型字段sno直接采用字符串的精确匹配，规定字段值相等则相似度为1，否则为0；而对于字符型字段sname采用基于编辑距离[5]的字段匹配算法计算其相似度。最后借鉴了文献[4]基于有效权值计算记录相似度的基础上，给出有效权值的方法来计算重复记录的相似度。

3.4 实验结果

为了检验所提出方法的有效性，以学生学号和姓名信息的初步聚类为前提，将采用分词、有效权值的检测重复信息方法与直接采用编辑距离算法计算字段相似度进行了对比。比较两种方法的运行效率。实验中采用了5000个学生基本信息，根据经验将分词后的Sno、Sname字段的权值分别赋值为0.6和0.4。

两种方法效率的比较实验结果。改进前的运行时间；改进后的总体操作时间，其中包括分词操作的时间与分词后进行记录匹配的时间。表中数据表明两种方法都随着记录集的增加而线性增长，时间的复杂度为O(N)。很显然，改进后的方法的时间开销T2明显小于未改进前方法的时间开销T1。

4 冲突处理

完成重复记录的检测及聚类后，为了使学生信息中每条记录都表示不同的实体，得到准确数据，数据仓库中必须只保留正确记录而删除其他的记录，即重复记录的冲突处理。目前，完成重复记录的处理主要通过机器自动执行，机器对重复记录的判断是简单的、僵化的，机器的处理可能带来极大的失真，因此需要用户明确参与其中。然而，数据仓库中处理的都是海量数据，如果每个重复记录聚类的合并都由用户决定，工作量会很大，因此，在重复记录处理时，可以依据实际情况将机器自动处理与人为处理相结合进行重复记录的冲突处理。

参考文献

[1]鲍玉斌，孙焕良，冷芳玲,等.数据仓库环境下以用户为中心的数据清洗过程模型[J].计算机科学，2004,31(5):52-55.

[2]Bitton D,DeWitt D J.Duplicate Record Elimination in Large Data Files[J].ACM Transactions on Database Systems.1983,8(2):255-265.

[3]邱越峰,田增平,季文 ,等.一种高效的检测相似重复记录的方法[J].计算机学报，2001,24(1):69-77.

[4]俞荣华,田增平,周傲英.一种检测多语言文本相似重复记录的综合方法[J].计算机科学，2002,29(1):118-121.

[5]Horst Bunke,Xiaoyi jiang,Karin Abegglen,et al.On the Weighted Mean of a Pair of String[J].Pattern Analusis & Application,2002,5:23-30.

推荐访问： 评价体系 清洗教学数据技术

[数据清洗技术在网络教学评价体系中的应用]相关文章

[数据清洗技术在网络教...]头条范本