当前位置: 首页 > 范文大全 > 公文范文 >

电力调度数据清洗转换方法研究

时间:2022-03-30 08:29:56  浏览次数:

zoޛ)j馟ii8$Ď1/DiuuN	/1#Kiiwuvvuv /i7ywC总结规律的方式计算并查找错误值,进而修正错误数据;而空值检测主要采用人工填写空缺值法手工检测并填写属性值,也可以采用属性的平均值、中间值、最大值、最小值或更为复杂的概率统计函数值填充空缺值法。数据缺失/异常处理于模块流程如图3所示:

图3 数据异常/缺失数据处理流程

1)、确定数据异常/缺失范围:通过数据预处理阶段,利用统计分析或人工智能方法检测数据缺失值所在属性的重要程度以及缺失值异常的范围,如图4所示,对不同的数据异常/缺失范围,采用不同的数据清洗方式。

图4 数据异常/缺失率范围处理方式

2)、数据删除:主要针对数据属性重要性低、异常/缺失率高的的数据进行直接删除处理,一般在小规模数据上试验成功后再处理全量数据。

3)、填充缺失内容:相对去除不需要字段而言,针对某些数据缺失/异常范围的指标可以通过一定的方法将缺失的数据进行填充操作,从而形成完整的数据记录。常用的数据缺失值填充方法有:

统计法:对于数值型的数据,使用均值、加权均值、中位数等方法补足;对于分类型数据,使用类别众数最多的值补足。

模型法:基于已有的其他字段,将缺失字段作为目标变量进行预测,得到最为可能的补全值。如果带有缺失值的列是数值变量,采用回归模型补全;如果是分类变量,则采用分类模型补全。

其他方法:例如隨机法、特殊值法、多重填补等。

4)、修正异常内容:针对某些数据异常/缺失范围的指标可以进行修正操作,方法有:使用简单规则库(常规性规则和业务特定规则等)检测和修正数据错误;使用不同属性的约束检测和以关联指标的计算结果修正异常数据;使用外部数据源检测和修正数据错误;视为缺失值按照处理缺失值的方法来处理。

5)、重新取数:如果数据属性非常重要但异常/缺失率高,数据填充/修正不能满足业务需求或数据处理成本过高时,则需要从系统重新获取、补录相关数据并进行数据清洗转换作业处理。

6)、完成数据异常/缺失处理,输出最后结果。

3.3重复数据处理

在电力调度多个系统数据集成过程中,由于各系统实际数据可能存在数据输入错误,格式、拼写上存在差异等各种问题,使得逻辑上指向同一个的实体,在数据集成后可能会有多个不同的表示,从而在数据挖掘分析时不能正确识别。对于重复数据的判断,基本思想是“排序与合并”,先将数据按一定规则排序,然后通过比较邻近排序算法来检测记录是否重复[5],最后通过冲突处理机制,根据一定的规则合并或删除检测出的重复数据,只保留其中正确的记录。重复数据处理包含了三个操作层次,一是排序,二是计算相似度,三是冲突处理(合并/删除)。主要处理过程如图5所示:

图5 重复数据处理方式

1)、通过对数据属性的分析,选取用于记录匹配的属性,并给属性分配权值,根据选取的匹配属性及权值对需处理的数据进行排序。

2)、按排序顺序扫描数据集中的每一条记录,采用基本近邻排序算法来检测数据相似重复度。

3)、如果通过第2步检测出的数据相似重复度大于阈值,说明该记录或连续的几条记录为相似重复记录,则进行数据的合并或删除操作;否则,扫描下一条数据记录,重复以上第2)和3)的步骤。

4)、完成数据重复记录检测,输出最后结果。

3.4数据质量校验

当数据清洗转换完成后,需在电力调度源系统到数据贴源层、贴源层到数据存储层各环节,对数据是否丢失、是否执行清洗转换、数据清洗转换后是否符合规则定义等问题进行检查,检查目的是为了验证数据清洗转换的准确性、完整性、业务合理性[6]。数据质量校验关键是构建数据质量检查规则,在数据清洗转换过程中根据数据质量检查规则执行数据质量探查任务,生成数据清洗报告并判定数据是否满足要求。数据质量校验基本流程如图6所示:

图6 数据质量校验

1)、开始数据清洗转换任务时执行数据质量探查任务,根据源系统的数据结构、数据字典、数据标准、规则模型等,利用挖掘算法(语义分析、聚类算法等)及规则模块定义,对清洗转换结果进行属性值完整性及合规性检测、重复记录检测等。

2)、生成数据清洗转换报告,记录数据清洗转换规则的满足情况。

3)、根据数据清洗转换报告的满足情况判断,对不满足数据质量校验规则的数据进行记录,改造数据清洗转换作业流程并重新执行,直到满足数据质量校验规则。

4)、根据数据清洗转换报告的满足情况判断,对满足数据校验规则的数据参照图1电力调度数据清洗转换数据逻辑架构将数据流转到数据存储层对聚合、加载、存储、分析。

4 结论

根据电力调度数据处理逻辑架构进行电力调度数据清洗转换作业,需要打通电力调度源系统到数据贴源层、贴源层到数据存储层之间的数据处理流程,实现三层两级ETL的联动。贴源层数据完成一次数据清洗转换作业同步到数据存储层后,电力调度源系统数据同时需要增量接入到贴源层。因此,需要相应建立一套全流程、持续性的数据增量同步机制,保证后期源系统数据能持续的进行清洗转换作业并将干净、合规的数据顺利接入到数据存储层进行存储。

通过对电力调度数据清洗转换过程各子模块描述可以看出,数据清洗转换的过程是借助规则模块定义,使用一系列算法及逻判断完成数据规范性处理,同时检测数据是否符合数据集中存储的要求,从而选择做进一步填充、删除、转换等操作。数据清洗转换的过程是数据集成的一个重要步骤,也是其中一个复杂的过程。数据清洗转换属于一个较新的研究领域,如何将数清洗有效地运用到ETL中以提高数据质量及如何提高数清洗转换精度等有待于进一步研究。由于电力调度数据质量控制的重要性,数据清洗技术在电力调度业务系统中应用前景是巨大的。

参考文献:

[1] 付立辰. 电力企业中数据仓库模型的研究与应用[D]. 华北电力大学(北京) 华北电力大学, 2012.

[2] 張军鹏. 数据仓库与数据挖掘中数据清洗的研究[D]. 华北电力大学(保定), 2006.

[3] 吴晓婷, 闫德勤. 数据降维方法分析与研究[J]. 计算机应用研究(8):38-41.

[4]  Maletic J, Marcus A. Data cleansing: beyond integritysis[J]. Division of Computer Science, 2000

[5] 朱宝成. ETL框架及数据清洗的研究[D]. 2007.

[6]  秦璇. 电力统计数据的质量评估及其异常检测方法研究[D]. 长沙理工大学, 2013.

作者简介:

闵侯(1986.02–),男,云南红河人,开发工程师,从事电网调度信息化建设工作

推荐访问: 调度 清洗 转换 电力 方法
[电力调度数据清洗转换方法研究]相关文章