1. 深度学习简介
1.1 起源
研究者们尝试组建模仿神经元互动的计算电路。
绝大多数神经网络都包含以下的核心原则:
- 交替使用线性处理单元与非线性处理单元,他们经常被称为“层”。
- 使用链式法则(即反向传播)来更新网络的参数。
1.2 发展
计算量的增长盖过了数据量的增长,存储容量没能跟上数据量增长的步伐。
这样的趋势使得统计模型可以在优化参数上投入更多的计算力,但同时需要提高存储的利用效率,例如使用非线性处理单元。这也相应导致了机器学习和统计学的最优选择从广义线性模型及核方法变化为深度多层神经网络。
深度学习长足发展的部分原因:
- 优秀的容量控制方法:使大型网络不再受制于过拟合
- 注意力机制:在不增加参数的情况下扩展一个系统的技艺容量的复杂度
- 记忆网络和神经编码器-解释器:使针对推理过程的迭代建模方法变得可能
- 生成对抗网络:关键创新在于将采样部分替换成了任意的含有可微分参数的算法
- 分布式并行训练
- 深度学习框架
1.3 特点
机器学习研究如何使计算机系统利用经验改善性能。它是人工智能领域的分支,也是实现人工智能的一种手段。
**机器学习与深度学习的关系:**在机器学习的众多研究方向中,表征学习关注如何自动找出表示数据的合适方式,以便更好地将输入变换为正确的输出,而深度学习是具有多级表示的表征学习方法。
在每一级(从原始数据开始),深度学习通过简单的函数将该级的表示变换为更高级的表示。因此,深度学习模型也可以看作是由许多简单函数复合而成的函数。当这些复合的函数足够多时,深度学习模型就可以表达非常复杂的变换。
深度学习可以逐级表示越来越抽象的概念或模式。
深度学习的一个外在特点是端到端的训练。
我们也正在经历从含参数统计模型转向完全无参数的模型。这使我们可以得到更精确的模型,尽管需要牺牲一些可解释性。
相对其它经典的机器学习方法而言,深度学习的不同在于:对非最优解的包容、对非凸非线性优化的使用,以及勇于尝试没有被证明过的方法。