0%

机器学习数学基础

记录机器学习数学概念/公式


机器学习数学基础

线性代数

Variance(方差)

方差(Variance),应用数学里的专有名词。
在概率论和统计学中,一个随机变量的方差描述的是它的离散程度,也就是该变量离其期望值的距离。方差越大,数据的分布越分散。
一个实随机变量的方差也称为它的二阶矩或二阶中心动差,恰巧也是它的二阶累积量。
说白了,就是将各个误差将之平方(而非取绝对值),使之肯定为正数,相加之后再除以总数,透过这样的方式来算出各个数据分布、零散(相对中心点)的程度。
继续延伸的话,方差的算术平方根称为该随机变量的标准差(此为相对各个数据点间)。

总体方差计算公式:

Bias(偏差)

偏差:描述的是预测值(估计值)的期望与真实值之间的差距。偏差越大,越偏离真实数据,
方差,是形容数据分散程度的,算是“无监督的”,客观的指标,
偏差,形容数据跟我们期望的中心差得有多远,算是“有监督的”,有人的知识参与的指标。

Standard Deviation(标准差)

标准差(Standard Deviation,SD)又常称均方差,数学符号 σ(sigma),在概率统计中最常使用作为测量一组数值的离散程度之用。
标准差定义:标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的两组数据,标准差未必相同。

标准差也被称为标准偏差,或者实验标准差,公式为
标准差公式

正态分布

矩阵

矩阵的性质

  • 不满足交换律
  • 方阵:行列相等
  • 单位矩阵:xx对角线都为1
  • 逆矩阵:IA=AI=A
  • 奇异矩阵/退化矩阵(singular/degenerate):没有逆矩阵,如零矩阵(矩阵元素都为0)

    矩阵的乘法

    矩阵的转置(transpose)

微积分

导数

偏导数

梯度

微分

常用公式

  • 假定函數(Hypothesis):
    参数:$ heta_0{,} heta_1$

  • 损失函数(Cost Function):
    目标:$ argmin $ $ J( heta_0, heta_1) $

  • 多元梯度下降算法

    • 假设函数:
    • 参数:
    • 代价函数:
      一元时,$x_j^{(i)}=x_0^{(1)}=1$
    • 梯度下降:Repeat { } ,同步更新每个$j=0,…m$
      $lpha$为学习率,定义了每次参数更新的幅度;

Learning Rate:
If α is too small: slow convergence.
If α is too large: may not decrease on every iteration and thus may not converge.