"Why least square?" –吴恩达
对于训练集$X$,标签集$Y$,”error set”$E$, $x\in X, y\in Y, \epsilon \in E$:
我们假定(Assume):
\[y^{(i)}=\theta^Tx^{(i)}+\epsilon^{(i)}\]* $\epsilon$: Unmeasured effects/random noise/etc.
在我们朴素的认知中,所有其他因素和噪音的合成是遵循高斯分布的:
\[\epsilon^{(i)}\sim \mathcal N(0,\sigma^2)\]那么:
\[P(\epsilon^{(i)})=\frac{1}{\sqrt{2\pi}\sigma}\exp\Big( -\frac{(\epsilon^{(i)})^2}{2\sigma^2} \Big)\]同时,我们朴素地认为训练集个各个特征之间遵循独立同分布(I.I.D.)
\[P(y^{(i)}\mid x^{(i)};\theta) = \frac{1}{\sqrt{2\pi}\sigma}\exp\Big( -\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2} \Big)\]尽管I.I.D”not a true assumption”, 但是在机器学习中”无伤大雅”(是很普遍且很有用的假设)
根据Assume移项得到的。
$P(y^{(i)}\mid x^{(i)};\theta)$:the prob of $y^{(i)}$ given $x^{(i)}$.$\theta$是参数而不是随机变量。
我们可以得到:
\[(y^{(i)}|x^{(i)};\theta)\sim \mathcal N(\theta^Tx^{(i)},\sigma^2)\] \[\mathcal{L}(\theta) = \qquad P(\vec{y}|x;\theta) \qquad * \\ \ \qquad=\prod^{m}_{i=1} P(y^{(i)}|x^{(i)}; \theta) \ ** \\ \ \ \qquad\qquad \qquad\qquad=\prod^{m}_{i=1}\frac{1}{\sqrt{2\pi}\sigma}\exp\Big( -\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2} \Big)\]\[\begin{array}{ll} \mathcal l(\theta) &= \log \mathcal L(\theta)\\ \\ &=\log\prod\limits^{m}_{i=1}\dfrac{1}{\sqrt{2\pi}\sigma}\exp\Big( -\dfrac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2} \Big)\\ \\ &=\sum\limits^{m}_{i=1}\Big[\log\dfrac{1}{\sqrt{2\pi}\sigma}+\log \exp\Big( -\dfrac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2} \Big)\Big]\\ \\ &=m\log\dfrac{1}{\sqrt{2\pi}\sigma}+\sum\limits^{m}_{i=1}-\dfrac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2} \end{array}\]$”\mathcal L”:$ likelyhood
$*\rightarrow **:$ $I.I.D$
我们可以发现最后的结果成为了常数+$f(y^{(i)}-\theta^Tx^{(i)})$
因为我们要MLE(Maximize likelyhood estimation),即:
\[choose\ \theta \ to\quad \text {maximize} \quad\mathcal L(\theta)\]所以我们的目标变成了:
\[choose\ \theta \ to\quad \text {minimize} \quad\sum\limits^{m}_{i=1}\dfrac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2}\]也就是:
\[choose\ \theta \ to\quad \text {minimize} \quad\dfrac{1}{2}\sum\limits^{m}_{i=1}{(y^{(i)}-\theta^Tx^{(i)})^2}=\mathcal J(\theta)\]$\mathcal J(\theta):$即损失函数,这里为我们常用的平方损失函数
我们可以发现这就是我们在回归问题中常用的$\mathcal J(\theta)$.
在这一刻,概率与直觉达到了统一。