@spiritnotes 2016-02-29T05:16:43.000000Z 字数 1964 阅读 3221

常见距离公式

机器学习 数学

欧几里得距离

欧几里得距离是指的多维空间中两点间的距离。

$euclidean(X,Y) = \sqrt{\sum_{i=1}^n (x_i-y_i)^2}$

def euclidean(x,y):
    return (sum((x-y)**2)**0.5

相似度采用如下公式变换

$sim(X,Y)={1\over 1+euclidean(X,Y)}$

1/(1+linalg.norm(X-Y)

皮尔逊相关系数

皮尔逊相关系数是一种度量两个变量间相关程度的方法，介于-1~1之间，1表示完全相关，0表示无关，-1表示负相关。可以修正“夸大分值”的情况，也即是分值分布近似，绝对值不一样，其实可以将分数进行归一化处理

$pearson(X,Y) = {{\sum_i(x_i*y_i) - {(\sum_ix_i)*(\sum_iy_i)\over n}}\over{\sqrt{(\sum_ix_i^2 - {(\sum_ix_i)^2\over n})*(\sum_iy_i^2 - {(\sum_iy_i)^2\over n})}}}$

# 可直接采用Python中的corrcoef()函数计算
def pearson(x,y):
    n = x.shape[0]
    sum_x, sum_y = sum(x), sum(y)
    num = x.dot(y) - sum_x*sum_y/n
    den = (sum(x**2) - sum_x**2/n) * (sum(y**2) - sum_y**2/n)
    if den == 0: return 1
    return num/den

相似度采用如下公式变换

$sim(X,Y)=0.5+0.5*pearson(X,Y)$

0.5+0.5*corrcoef(X,Y,rowvar=0)[0][1]

余弦相似度（cosine similarity）

计算的是两个向量夹角的余弦值。如果夹角90度，则相似度为0，如果方向相同，则相似度为1.值位于-1~1之间。

$cos\theta={A\cdot B\over||A||\ ||B||};||A||=\sqrt{\sum A_i^2}$

# ||A||
linalg.norm(A)

相似度采用如下公式变换

$sim(X,Y)=0.5+0.5*cos(X,Y)$

0.5+ 0.5*(X.T*Y/(linalg.norm(X)*linalg.norm(Y)))

Tanimoto系数

Tanimoto系数是一种度量两个集合之间相似程度的方法。

$T(A,B) = {len(A \bigcap B)\over len(A \bigcup B)}$

def tanimoto(A, B):
    if not A and not B:
        return 0
    return len(A&B)/len(A|B)

基尼不纯度

基尼不纯度是用来度量集合有多纯的方法。物理含义是从中选择一个元素并随机猜测其种类，猜错的概率。

$giniimpurity(i) = 1 - \sum_{i=1}^mp(i)^2 = \sum_{i=1}^m\sum_{j!=i,j=1}^mp(i)p(j)$

def giniimpurity(counter):
    total = sum(counter.values())
    impurity = 1
    for num in counter.values():
        impurity -= (num/total)**2
    return impurity

熵

熵是用于判断集合内部混乱度的方法，用以度量一个集合中的无序情况。物理意义可以理解为从集合中随机抽取一个元素的意外程度。

$H(X) = \sum_{i=1}^mp(x_i)log_2({1\over p(x_i)}) = -\sum_{i=1}^mp(x_i)log_2({p(x_i)})$

def entropy(counter):
    log2 = lamda x:log(x)/log(2)
    total = sum(counter.values())
    ent = 0
    for num in counter.values():
        p = num/total
        ent -= p*log2(p)
    return ent

方差

方差是用来度量一组数值与其均值之间的差距的，通常用于统计学中，用以测量集合中各个数值之间的差。

$\sigma ^2 = {1\over N}\sum_{i=1}^N(x_i - \bar x)^2$

def variance(vals):
    mean = avg(vals)
    return sum((vals-mean)**2)/len(vals)

高斯函数

高斯函数是正态曲线的概率密度函数，从高位开始下降但不会下降到0。

${1\over\sigma\sqrt{2\pi}}exp(-{(x-u)^2\over 2\sigma^2})$

def gaussian(dist, sigma=10):
    exp = math.e**(-dist**2/(2*sigma**2))
    return (1/(sigma*(2*math.pi)**0.5)*exp

常见距离公式

欧几里得距离

皮尔逊相关系数

余弦相似度（cosine similarity）

Tanimoto系数

基尼不纯度

熵

方差

高斯函数

内容目录

选择主题