感知机

二分类的线性分类模型
模型： $f (x) = s i g n (w \cdot x + b) $ 。 $w $ ，权值向量（weight vector）； $b $ ，偏置（bias）。对应于输入空间中的分离超平面。
- 损失函数：对应于所有点到分离超平面的总距离。
- $L (w, b) = - \sum y_{i} (w \cdot x_{i} + b)$
策略：最小化损失函数
算法：基于随机梯度下降法对损失函数的最优化算法。
- 学习率 $0 < η \leq 1$
- 原始形式
  - $w_{k} = w_{k - 1} + η y_{i} x_{i}$
  - $b_{k} = b_{k - 1} + η y_{i} $
- 对偶形式
  - $α_{i} = n_{i} η $
收敛性（Novikoff定理）：当训练数据集线性可分时。扩展权值向量 $\hat{w} = (w^{T}, b)^{T} $ ，输入向量扩展 $\hat{x} = (x, 1) $ 。 $i = 1, 2, . . . N $
- (1) 存在 $| | {\hat{w}}_{o p t} | | = 1$ ，使超平面 ${\hat{w}}_{o p t} \cdot \hat{x} = w_{o p t} \cdot x + b_{o p t} = 0$ 将训练数据集完全正确分开，且存在 $γ > 0$ ，使 $y_{i} ({\hat{w}}_{o p t} \cdot \hat{x}) = y_{i} (w_{o p t} x_{i} + b) \geq γ $
- (2) 误分类次数k满足： $k \leq (\frac{R}{γ})^{2}$ ，其中 $R = m a x {| | \hat{x_{i}} | |}$
- 定理证明