机器学习——局部加权回归,逻辑回归

局部加权回归( locally weighted regression )

特征选择问题:underfitting,overfitting

parametric learing algorithm:有固定数目的参数以用来数据拟合的算法;

Non-parametric learing algorithm:参数随着训练集大小线性增长;

LWR:fit \(\theta\) to minimize \(\sum_iw^{(i)}(y^{(i)}-\theta^Tx^{(i)})^2\) where \(w^{(i)}=exp(-\frac{{(x^{(i)}-x)^2}}{2\tau^2 })\)

解得\(\theta=(X^TWX)^{-1}X^TWy\)

备注:每次预测一个,都需要重新建立模型;

为什么选择最小二乘:

assume \(y^{(i)}=\theta^Tx^{(i)}+\varepsilon ^{(i)}\)

\(P(\varepsilon ^{(i)})=\frac{1}{\sqrt{2\pi}\sigma}exp{(-\frac{(\varepsilon ^{(i)})^2}{2\sigma})}\) 假设为高斯分布的原因:一个合理准确的假设(中心极限定理);数学计算的便利;

so $y^{(i)}|x^{(i)};\theta $ ~ \(N (\theta^Tx^{(i)},\sigma^2)\) 其中\(\theta\)不是随机变量,所以用的是分号;

$\varepsilon ^{(i)}s $ are IID independently identically distributed

\(L(\theta)=P(\vec y|X;\theta))=\Pi_{i=1}^mP(y^{(i)}|x^{(i)};\theta)\)

极大似然估计:choose \(\theta\) to maximize \(L(\theta)\)

\(LL(\theta)=log L(\theta)=\sum_{(i=1)}^mlog[\frac{1}{\sqrt{2\pi}\sigma}exp{(-\frac{(\varepsilon ^{(i)})^2}{2\sigma})}]=mlog\frac{1}{\sqrt{2\pi}\sigma}+\sum_{i=1}^m-\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma}\)

to minimizie \(J(\theta)=\sum_{i=1}^{m}\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2}\)

logistic回归:(离散)分类算法,解决二分类问题

逻辑回归(Logistic Regression)与线性回归(Linear Regression)都是一种广义线性模型(generalized linear model)。逻辑回归假设因变量 y 服从伯努利分布,而线性回归假设因变量 y 服从 高斯分布。

\(y\epsilon \{0,1\}h_\theta(x)\epsilon[0,1]\)

choose假设函数: \(h_\theta(x)=g(\theta^Tx)=\frac{1}{1+e^{-\theta^Tx}}\) g(z)为logistic或者sigmoid函数

\(P(y=1|x;\theta)=h_\theta(x)\) \(P(y=0|x;\theta)=1-h_\theta(x)\) ->\(P(y|x;\theta)=(1-h_\theta(x))^{1-y}h_\theta(x)^y\)

决策边界:一个方程,分开两个部分

在逻辑回归中,假设函数(h=g(z))用于计算样本属于某类别的可能性;决策函数(h=1(g(z)>0.5))用于计算(给出)样本的类别;决策边界(θ^Tx=0)是一个方程,用于标识出分类函数(模型)的分类边界。

代价函数:

\(L(\theta)=P(\vec y|X;\theta))=\Pi_{i=1}^m(1-h_\theta(x^{(i)}))^{1-y^{(i)}}h_\theta(x^{(i)})^{y^{(i)}}\)

\(LL(\theta)=logL(\theta)\) 可以用梯度上升法做,其中\(\frac{\partial }{\partial \theta_j}LL(\theta)=\sum_{i=1}^m(y^{(i)}-h_\theta(x^{(i)}))x_j^{(i)}\)

矩阵法更新公式: W=W+(Y-W\(X^{(i)^T}\)\(X^{(i)}\)

相关推荐