一、三种类型
1. 有监督学习
1) 给定输入,预测输出
2. 增强学习
1) 学习到一个序列,使最终的收益最大(下棋等)
3. 无监督学习
1) 发现输入的内部表示
二、有监督学习的两种类型
1. 回归(拟合)
2. 分类
三、增强学习
1. 在增强学习中,我们需要学习一个行为序列,但是唯一的有监督信号是最终的一个标量:回报值
2. 目标:每次选择一个行为都最大化最终的回报值
3. 增强学习是困难的,唯一的有监督信息(下棋输赢)提供不了太多的有用信息
4. 增强学习模型很难学习到百万级别的参数个数,一般几十个,最多上千
四、无监督学习
1. 不仅仅是聚类,聚类是一种非常稀疏的表示
2. 发现有用的表示
3. 降维
4. 某种目标上“好”的表示(二值向量)