@notmylove 2019-04-01T13:18:04.000000Z 字数 2524 阅读 2509

基于多项式拟合的异常数据剔除剔除与修复方法

异常数据剔除

该算法的原理与上一篇‘基于B样条曲线的异常数据剔除与修复方法’相似，所以一些过程就不再叙述，这里主要叙述正向递推模型与逆向递推模型以及修复模型，设 $l_f$ , $l_b$ 为拟合阶数

正向递推模型

$\begin{cases}[a_0,a_1,...,a_{l_f}]^T = (C_f^TC_f)^{-1}C_f^TY \\ \hat X_k = a_0 + a_1t_k + a_2t_k^2+...+a_{l_f}t_k^{l_f} \quad k=i+1, i+2, ...\end{cases} \tag{1}$

$\quad \quad \quad \quad$ $C_f = \begin{bmatrix} 1&t_{i-3}&...&t_{i-3}^{l_f} \\ 1&t_{i-2}&...&t_{i-2}^{l_f} \\ ...&...&...&... \\1&t_{i}&...&t_{i}^{l_f}\end{bmatrix}$ $\quad \quad \quad$ $Y_f = \begin{bmatrix} x_{i-3} \\ x_{i-2} \\ x_{i-1} \\ x_{x_i} \end{bmatrix}$

逆向递推模型

$\begin{cases}[a_0,a_1,...,a_{l_b}]^T = (C_b^TC_b)^{-1}C_b^TY \\ \hat X_k = a_0 + a_1t_k + a_2t_k^2+...+a_{l_b}t_k^{l_b} \quad k=i^{'}-1, i^{'}-2, ...\end{cases} \tag{2}$

$\quad \quad \quad \quad$

$C_b = \begin{bmatrix} 1&t_{i^{'}}&...&t_{i^{'}}^{l_b} \\ 1&t_{i^{'}+1}&...&t_{i^{'}+1}^{l_b} \\ ...&...&...&... \\1&t_{i^{'}+3}&...&t_{i^{'}+3}^{l_b}\end{bmatrix}$

$\quad \quad \quad$

$Y_b = \begin{bmatrix} x_{i^{'}} \\ x_{i^{'}+1} \\ x_{i^{'}+2} \\ x_{i^{'}+3} \end{bmatrix}$

进一步检验模型

如果正向检验或逆向检验判定为异常数据（也就是一个判定为正常，一个判定为异常）时，需进一步检验。是否需要数据分段处理跟上述一样。这里通过重新构造内推模型，内推模型比外推模型要更加精确。假设单向异常数据点为 $x_{i^{''}}$ ，选取该点逆向连续两个正常数据，正向连续两个正常数据构造多项式拟合内推模型

$\begin{cases}[a_0,a_1,...,a_{l}]^T = (C_n^TC_n)^{-1}C_n^TY_n \\ \hat X_k = a_0 + a_1t_k + a_2t_k^2+...+a_{l}t_k^{l} \quad k=i^{''}\end{cases} \tag{3}$

$\quad \quad \quad \quad$

$C_n = \begin{bmatrix} 1&t_{i^{''}-o}&...&t_{i^{''}-o}^{l} \\ 1&t_{i^{''}-p}&...&t_{i^{''}-p}^{l} \\ 1&t_{i^{''}+q}&...&t_{i^{''}+q}^{l} \\ 1&t_{i^{''}+r}&...&t_{i^{''}+r}^{l}\end{bmatrix}$

$\quad \quad \quad$

$Y_n = \begin{bmatrix} x_{i^{'}} \\ x_{i^{'}+1} \\ x_{i^{'}+2} \\ x_{i^{'}+3} \end{bmatrix}$

异常数据修复模型

对于满足数据修复条件的异常数据给予修复

$\begin{cases}[a_0,a_1,...,a_{l}]^T = (C_l^TC_l)^{-1}C_l^TY_l \\ \hat X_k = a_0 + a_1t_k + a_2t_k^2+...+a_{l}t_k^{l} \quad k=i+1, i+2, ..., i^{'}-1\end{cases} \tag{4}$

$\quad \quad \quad \quad$ $C_l = \begin{bmatrix} 1&t_{i-3}&...&t_{i-3}^{l} \\ 1&t_{i-2}&...&t_{i-2}^{l} \\ ...&...&...&... \\1&t_{i}&...&t_{i}^{l} \\ 1&t_{i^{'}}&...&t_{i^{'}}^{l} \\ 1&t_{i^{'}+1}&...&t_{i^{'}+1}^{l} \\ ...&...&...&... \\1&t_{i^{'}+3}&...&t_{i^{'}+3}^{l} \end{bmatrix}$ $\quad \quad \quad$ $Y_l = \begin{bmatrix} x_{i-3} \\ x_{i-2} \\ x_{i-1} \\ x_{x_i} \\ x_{i^{'}} \\ x_{i^{'}+1} \\ x_{i^{'}+2} \\ x_{i^{'}+3} \end{bmatrix}$

算法流程

1）根据所要检测的数据质量来设定判断门限，后续可以根据实际运算结果来进行修正。还有连续异常数据的判断次数的允许最大值和连续丢失数据的数量的允许最大值的设定，这些可以依据工程背景进行合理的设定。
2）通过正向连续四点检验和逆向连续四点检验进行初始数据判断，从而构造初始拟合递推模型。
3）然后进行数据是否异常判断，如果降阶到线性模型后还是不满足判定条件则认为该点可能异常，标记此点，往后递推进行下一点检验。
4）如果再一次有数据判断为正常数据后，记录此时拟合外推结果中与目标结果最接近时拟合阶数或拟合点数，同时此点需要加入递推模型，相应的剔除递推模型中的第一点数据，然后重新构造递推模型。
5）当连续丢点数量或连续异常数量超过了设定的最大值，那么此时的外推模型失效，需要进行数据分段处理，重新进行外推模型的构造。
6）双向检验均判定为异常的数据则判定为异常，双向检验均判定为正常的数据则判定为正常，一侧判定为正常一侧判定为异常的数据则需要进行下一步的检验来判定。而其中对满足修复条件的异常数据可以给予修复处理。