基于电力大数据清洗模型的异常数据识别方法(4)-清洗世界

来稿应自觉遵守国家有关著作权法律法规，不得侵犯他人版权或其他权利，如果出现问题作者文责自负，而且本刊将依法追究侵权行为给本刊造成的损失责任。本刊对录用稿有修改、删节权。经本刊通知进行修改的稿件或被采用的稿件，作者必须保证本刊的独立发表权。一、投稿方式： 1、请从我刊官网直接投稿。 2、请从我编辑部编辑的推广链接进入我刊投审稿系统进行投稿。二、稿件著作权： 1、投稿人保证其向我刊所投之作品是其本人或与他人合作创作之成果，或对所投作品拥有合法的著作权，无第三人对其作品提出可成立之权利主张。 2、投稿人保证向我刊所投之稿件，尚未在任何媒体上发表。 3、投稿人保证其作品不含有违反宪法、法律及损害社会公共利益之内容。 4、投稿人向我刊所投之作品不得同时向第三方投送，即不允许一稿多投。 5、投稿人授予我刊享有作品专有使用权的方式包括但不限于：通过网络向公众传播、复制、摘编、表演、播放、展览、发行、摄制电影、电视、录像制品、录制录音制品、制作数字化制品、改编、翻译、注释、编辑，以及出版、许可其他媒体、网站及单位转载、摘编、播放、录制、翻译、注释、编辑、改编、摄制。 6、第5条所述之网络是指通过我刊官网。 7、投稿人委托我刊声明，未经我方许可，任何网站、媒体、组织不得转载、摘编其作品。

基于电力大数据清洗模型的异常数据识别方法(4)

作者:

关键词:

摘要：

通过并行CURE聚类算法获取正常电力大数据，主要思路为删除离群数据。并行CURE聚类算法具体执行步骤如下：

step 1：在电力大数据中随机抽取一个样本，该样本具有一定的代表性；

step 2：将上述抽取的样本划分为多个尺寸相同的数据集；

step 3：对上述划分完毕的数据集进行聚类，得到个簇，计算簇中每个数据点的离散参数与离散程度判定值，计算公式表示为：

（1）

其中，表示的是数据点的离散参数；表示的是数据点的离散程度判定值；表示的是簇中数据点离群程的平均值；表示的是第个数据点的离群程；表示的是数据点中最小离群程。

step 4：依据计算结果，删除大于最小离群程阈值的数据点，对个簇进行第二次聚类；

step 5：循环step 3与step 4，直到不存在大于最小离群程阈值的数据点为止；

step 6：完成并行CURE聚类，得到正常电力大数据。

1.2 选择正常电力大数据边界样本

正常电力大数据边界样本具有三个特点：一是分散在正常数据点周围；二是可以表示正常数据点的形状；三是距离质心距离最远[6]。以上述得到的正常电力大数据为基础，选择正常电力大数据边界样本，具体流程如图1所示。

图1 选择正常电力大数据边界样本流程图Fig.1 Select normal power big data boundary sample flow chart

根据上述流程得到正常电力大数据边界样本如图2所示。

图2 正常电力大数据边界样本示意图Fig.2 Schematic diagram of normal power big data boundary samples

由图2得到正常电力大数据边界样本集合为。

1.3 执行异常数据识别算法

以上述得到的正常电力大数据边界样本集合为识别异常数据的依据，设定待识别的电力大数据样本为，设置异常数据识别规则为：

（2）

其中，表示的是识别出的异常数据；表示的是识别出的正常数据；表示的是待识别电力大数据到边界样本的距离序列最小值；表示的是待识别电力大数据到边界样本最远数据点距离值；表示的是待识别电力大数据到质心的距离；表示的是正常电力大数据样本的识别半径。

边界样本数据点主要分布在聚类簇的周围，可以表示聚类簇的形状，以此为基础识别异常数据，可以极大的减少异常数据识别的计算量[7]。以异常数据识别规则为基础，执行异常数据识别算法，其过程如表1所示。

Tab.1 Abnormal data identification algorithm execution flow chart步骤内容算法输入输入正常电力大数据质心，正常数据边界样本，待识别电力大数据样本算法输出异常数据 step 1计算待识别电力大数据到边界样本点的距离，得到距离序列 step 2计算正常电力大数据识别半径 step 3将距离序列中的最小值赋值于 step 4将距离序列中的最大值赋值于 step 5若，则待识别电力大数据为异常数据；反之，执行step 6 step 6计算待识别电力大数据到正常数据质心的距离，得到 step 7若，则待识别电力大数据为异常数据；反之，则待识别电力大数据为正常数据 step 8标记异常数据的位置，并反馈该信息 step 9循环执行step 1-step 8，直到识别完成 step 10输出识别的异常数据

依据表1流程得到了异常数据集合为，为下述异常数据清洗提供数据支撑[8]。

1.4 异常数据清洗

以上述得到的异常数据集合为基础，利用电力大数据清洗模型清洗异常数据[9]。具体过程如下所示。

电力大数据清洗模型主要是修正、清洗异常数据。电力大数据指的是在一段时间内采集电力数据的积累，其具有周期变化性、幅值变化性、缓慢增加性规律，为此，想要修正异常数据，需要分析异常数据特点以及表现形式，以此为基础，修正不同特点的异常数据[10]。

对周期变化型异常数据来说，修正时选择的参考数据序列为包含异常数据的时刻数据序列；对缓慢增加型异常数据来说，修正时选择的参考数据序列为异常数据序列的区间。

修正异常数据过程中，现有方法采用的是异常数据序列平均数代替异常数据，得到的修正值为：

（3）

其中，表示的是给定的权值。

此方法结果对后续序列值会产生衰减影响，无法得到最佳的修正结果[11]。为此，利用指数加权移动平均数代替异常数据，得到的修正值为：

（4）

其中，表示的是修正参数。

删除无法修正的异常数据，通过上述过程得到了更加精确的电力大数据，实现了基于电力大数据清洗模型的异常数据的识别，为电力大数据分析提供更加精确、完整的数据支撑[12]。

文章来源：《清洗世界》网址: http://www.qxsjzz.cn/qikandaodu/2020/0809/384.html