- · 《清洗世界》栏目设置[08/03]
- · 《清洗世界》刊物宗旨[08/03]
- · 《清洗世界》征稿要求[08/03]
- · 《清洗世界》投稿方式[08/03]
- · 《清洗世界》数据库收录[08/03]
基于电力大数据清洗模型的异常数据识别方法(4)
作者:网站采编关键词:
摘要:通过并行CURE聚类算法获取正常电力大数据,主要思路为删除离群数据。并行CURE聚类算法具体执行步骤如下: step 1:在电力大数据中随机抽取一个样本,该
通过并行CURE聚类算法获取正常电力大数据,主要思路为删除离群数据。并行CURE聚类算法具体执行步骤如下:
step 1:在电力大数据中随机抽取一个样本,该样本具有一定的代表性;
step 2:将上述抽取的样本划分为多个尺寸相同的数据集;
step 3:对上述划分完毕的数据集进行聚类,得到个簇,计算簇中每个数据点的离散参数与离散程度判定值,计算公式表示为:
(1)
其中,表示的是数据点的离散参数;表示的是数据点的离散程度判定值;表示的是簇中数据点离群程的平均值;表示的是第个数据点的离群程;表示的是数据点中最小离群程。
step 4:依据计算结果,删除大于最小离群程阈值的数据点,对个簇进行第二次聚类;
step 5:循环step 3与step 4,直到不存在大于最小离群程阈值的数据点为止;
step 6:完成并行CURE聚类,得到正常电力大数据。
1.2 选择正常电力大数据边界样本
正常电力大数据边界样本具有三个特点:一是分散在正常数据点周围;二是可以表示正常数据点的形状;三是距离质心距离最远[6]。以上述得到的正常电力大数据为基础,选择正常电力大数据边界样本,具体流程如图1所示。
图1 选择正常电力大数据边界样本流程图Fig.1 Select normal power big data boundary sample flow chart
根据上述流程得到正常电力大数据边界样本如图2所示。
图2 正常电力大数据边界样本示意图Fig.2 Schematic diagram of normal power big data boundary samples
由图2得到正常电力大数据边界样本集合为。
1.3 执行异常数据识别算法
以上述得到的正常电力大数据边界样本集合为识别异常数据的依据,设定待识别的电力大数据样本为,设置异常数据识别规则为:
(2)
其中,表示的是识别出的异常数据;表示的是识别出的正常数据;表示的是待识别电力大数据到边界样本的距离序列最小值;表示的是待识别电力大数据到边界样本最远数据点距离值;表示的是待识别电力大数据到质心的距离;表示的是正常电力大数据样本的识别半径。
边界样本数据点主要分布在聚类簇的周围,可以表示聚类簇的形状,以此为基础识别异常数据,可以极大的减少异常数据识别的计算量[7]。以异常数据识别规则为基础,执行异常数据识别算法,其过程如表1所示。
Tab.1 Abnormal data identification algorithm execution flow chart步骤内容 算法输入输入正常电力大数据质心,正常数据边界样本,待识别电力大数据样本 算法输出异常数据 step 1计算待识别电力大数据到边界样本点的距离,得到距离序列 step 2计算正常电力大数据识别半径 step 3将距离序列中的最小值赋值于 step 4将距离序列中的最大值赋值于 step 5若,则待识别电力大数据为异常数据;反之,执行step 6 step 6计算待识别电力大数据到正常数据质心的距离,得到 step 7若,则待识别电力大数据为异常数据;反之,则待识别电力大数据为正常数据 step 8标记异常数据的位置,并反馈该信息 step 9循环执行step 1-step 8,直到识别完成 step 10输出识别的异常数据
依据表1流程得到了异常数据集合为,为下述异常数据清洗提供数据支撑[8]。
1.4 异常数据清洗
以上述得到的异常数据集合为基础,利用电力大数据清洗模型清洗异常数据[9]。具体过程如下所示。
电力大数据清洗模型主要是修正、清洗异常数据。电力大数据指的是在一段时间内采集电力数据的积累,其具有周期变化性、幅值变化性、缓慢增加性规律,为此,想要修正异常数据,需要分析异常数据特点以及表现形式,以此为基础,修正不同特点的异常数据[10]。
对周期变化型异常数据来说,修正时选择的参考数据序列为包含异常数据的时刻数据序列;对缓慢增加型异常数据来说,修正时选择的参考数据序列为异常数据序列的区间。
修正异常数据过程中,现有方法采用的是异常数据序列平均数代替异常数据,得到的修正值为:
(3)
其中,表示的是给定的权值。
此方法结果对后续序列值会产生衰减影响,无法得到最佳的修正结果[11]。为此,利用指数加权移动平均数代替异常数据,得到的修正值为:
(4)
其中,表示的是修正参数。
删除无法修正的异常数据,通过上述过程得到了更加精确的电力大数据,实现了基于电力大数据清洗模型的异常数据的识别,为电力大数据分析提供更加精确、完整的数据支撑[12]。
文章来源:《清洗世界》 网址: http://www.qxsjzz.cn/qikandaodu/2020/0809/384.html
上一篇:古籍修复技艺之书页清洗去污 ——从参观“中
下一篇:最完美的地方