“Why least square?” —吴恩达
对于训练集X,标签集Y,“error set”E, x∈X,y∈Y,ϵ∈E:
我们假定(Assume):
y(i)=θTx(i)+ϵ(i)
* ϵ: Unmeasured effects/random noise/etc.
在我们朴素的认知中,所有其他因素和噪音的合成是遵循高斯分布的:
ϵ(i)∼N(0,σ2)
那么:
P(ϵ(i))=2πσ1exp(−2σ2(ϵ(i))2)
同时,我们朴素地认为训练集个各个特征之间遵循独立同分布(I.I.D.)
尽管I.I.D”not a true assumption”, 但是在机器学习中”无伤大雅”(是很普遍且很有用的假设)
P(y(i)∣x(i);θ)=2πσ1exp(−2σ2(y(i)−θTx(i))2)
根据Assume移项得到的。
P(y(i)∣x(i);θ):the prob of y(i) given x(i).θ是参数而不是随机变量。
我们可以得到:
(y(i)∣x(i);θ)∼N(θTx(i),σ2)
L(θ)=P(y∣x;θ)∗ =i=1∏mP(y(i)∣x(i);θ) ∗∗ =i=1∏m2πσ1exp(−2σ2(y(i)−θTx(i))2)
"L": likelyhood
∗→∗∗: I.I.D
l(θ)=logL(θ)=logi=1∏m2πσ1exp(−2σ2(y(i)−θTx(i))2)=i=1∑m[log2πσ1+logexp(−2σ2(y(i)−θTx(i))2)]=mlog2πσ1+i=1∑m−2σ2(y(i)−θTx(i))2
我们可以发现最后的结果成为了常数+f(y(i)−θTx(i))
因为我们要MLE(Maximize likelyhood estimation),即:
choose θ tomaximizeL(θ)
所以我们的目标变成了:
choose θ tominimizei=1∑m2σ2(y(i)−θTx(i))2
也就是:
choose θ tominimize21i=1∑m(y(i)−θTx(i))2=J(θ)
J(θ):即损失函数,这里为我们常用的平方损失函数
我们可以发现这就是我们在回归问题中常用的J(θ).
在这一刻,概率与直觉达到了统一。