统计学习的分类
基本分类
监督学习
supervised learning
是指从标注数据中学习预测模型的机器学习问题。标注数据表示输入输出的对应关系,预测模型对给定的输入产生相应的输出。监督学习的本质是学习输入到输出的映射的统计规律。
输入空间、特征空间和输出空间
在监督学习中,将输入与输出所有可能取值的集合分别称为输入空间与输出空间。输入与输出空间可以是有限元素的集合,也可以是整个欧式空间。输入空间与输出空间可以是同一个空间,也可以是不同的空间;但是通常输出空间远远小于输入空间。
每个具体的输入是一个实例,通常由特征向量表示。这时,所有特征向量存在的空间称为特征空间。
特征空间的每一维对应于一个特征。有时假设输入空间与特征空间为相同的空间,对于它们不予区分;有时假设输入空间与特征空间为不同的空间,将实例从输入空间映射到特征空间。模型实际上都是定义在特征空间上的。
在监督学习中,将输入与输出看作是定义在输入(特征)空间与输出空间上的随机变量的取值。输入输出变量用大写字母表示,习惯上输入变量写作X,输出变量写作Y。输入输出变量的取值用小写字母表示,输入变量的取值写作x,输出变量的取值写作y。
变量可以是标量或者向量,都用相同类型字母表示。除特别声明外,默认为列向量。输入实例x的特征向量记作:
$$ x=(x^{(1)},x^{(2)},…,x^{(i)},…,x^{(n)})^T $$
$x^{(i)}$表示x的第i个特征。注意$x^{(i)}$和$x_i$不同,本书通常用$x_i$表示多个输入变量中的第i个变量,即
$$ x_i=(x^{(1)},x^{(2)},…,x^{(n)})^T $$
监督学习从训练数据集合中学习模型,对测试数据进行预测。训练数据由输入(或特征向量)与输出对组成,训练集通常表示为
$$T={(x_1,y_1),(x_2,y_2),…,(x_N,y_N)}$$
测试数据也由输入与输出对组成。输入与输出对又称为样本或者样本点。
输入变量X和输出变量Y有不同的类型,可以使连续的,也可以使离散的。
人们根据输入输出变量的不同类型,对预测任务给予不同的名称:
输入变量与输出变量均为连续变量的预测问题称为回归问题;
输出变量为有限个离散变量的预测问题称为分类问题;
输入变量与输出变量均为变量序列的预测问题称为标注问题。
联合概率分布
监督学习假设输入与输出的随机变量X和Y遵循联合概率分布$ P(X,Y) $。
$ P(X,Y) $表示分布函数,或者分布密度函数。注意在学习过程中,假定这一联合概率分布存在,但对学习系统来说,联合概率分布的具体定义是未知的。训练数据与测试数据被看作是依联合分布$ P(X,Y) $独立同分布产生的。统计学习假设数据存在一定的统计规律,X和Y具有联合概率分布就是监督学习关于数据的基本假设。
假设空间
监督学习的目的在于学习一个由输入到输出的映射,这一映射由模型来表示。
模型属于由输入空间到输出空间的映射的集合,这个集合就是假设空间。假设空间的确定意味着学习的范围的确定。
监督学习的模型可以是概率模型或者非概率模型,由条件概率分布$ P(Y|X) $或决策函数$ Y=f(X) $表示,随具体的输入进行相应的输出预测时,写作$ P(y|x) $或$ y=f(x) $。
问题的形式化
无监督学习
unsupervised learning
无监督学习是指从无标注数据中学习预测模型的机器学习问题。无标注数据是自然的到的数据,预测模型表示数据的类别、转换或概率。
无监督学习的本质是学习数据中的统计规律或潜在结构。
强化学习
reinforcement learning
强化学习是指智能系统在与环境的连续互动中学习最优行为策略的机器学习问题。
假设智能系统与环境的互动基于马尔可夫决策过程,智能系统能观测到的是环境互动的到的数据序列。
强化学习的本质是学习最优的序贯决策(sequential analysis)。
半监督学习与主动学习
semi-supervised learning
半监督学习是指利用标注数据和未标注数据学习预测模型的机器学习问题。
通常有少量标注数据、大量未标注数据,因为标注数据的构建往往需要人工,成本较高,未标注数据的收集不需太多成本。
半监督学习旨在利用未标注数据中的信息,辅助标注数据,进行监督学习,以较低的成本达到较好的学习效果。
主动学习是指机器不断主动给出实例让教师进行标注,然后利用标注数据学习预测模型的机器学习问题。
通常的监督学习使用给定的标注数据,往往是随机的到的,可以看作是“被动学习”,主动学习的目标是找出对学习最有帮助的实例让人标注,以较小的标注代价,达到较好的学习效果。
半监督学习和主动学习更接近监督学习。
按模型分类
概率模型与非概率模型
线性模型与非线性模型
linear model&&non-linear model
统计学习模型,特别是非概率模型,可以分为线性模型和非线性模型。
如果函数$y=f(x)$或$z=g(x)$则称模型是线性模型,否则称模型是非线性模型。
线性模型:
- 感知机
- 线性支持向量机
- k近邻
- k均值
- 潜在语义分析
非线性模型:
- 核函数支持向量机
- AdaBoost
- 神经网络
参数化模型与非参数化模型
parametric model&¶metric model
参数化模型假设模型参数的维度固定,模型可以由有限维参数完全刻画;
非参数化模型假设模型参数的维度不固定或者说无穷大,随着训练数据量的增加而不断增大。
参数化模型:
- 感知机
- 朴素贝叶斯
- 逻辑斯蒂回归
- k均值
- 高斯混合模型
非参数化模型:
- 决策树
- 支持向量机
- AdaBoost
- k近邻
- 潜在语义分析
- 概率潜在语义分析
- 潜在狄利克雷分配
按算法分类
在线学习
在线学习是指每次接受一个样本,进行预测,之后学习模型,并不断重复该操作的机器学习。
在线学习可以是监督学习,也可以是无监督学习,强化学习本身就拥有在线学习的特点。
批量学习
批量学习一次接受所有数据,学习模型,之后进行预测。
有些实际应用的场景要求学习必修是在线的。
比如:
- 数据一次达到无法存储,系统需要及时作出处理;
- 数据规模很大,不可能一次处理所有数据;
- 数据的模式随时间动态变化,需要算法快速适应新的模式。
在线学习通常比批量学习更难,很难学到预测准确率更高的模型,因为每次模型更新中,可利用的数据有限。
按技巧分类
贝叶斯学习
贝叶斯学习,又称为贝叶斯推理,是统计学、机器学习中重要的方法。
其主要的想法是,在概率模型的学习和推理中,利用贝叶斯定理,计算在给定数据条件下模型的条件概率,即后验概率,并应用这个原理进行模型的估计,以及对数据的预测。
将模型、未观察要素及其参数用变量表示,使用模型的先验分布是贝叶斯学习的特点。
核方法
核方法是使用核函数表示核学习非线性模型的一种机器学习方法,可以用于监督学习和无监督学习。。
有一些线性模型的学习方法基于相似度计算,更具体地,向量内积计算。
核方法可以把它们扩展到非线性模型的学习,使其应用范围更广泛。
把线性模型扩展到非线性模型模型,直接的做法是显式地定义从输入空间(低维空间)到特征空间(高维空间)的映射,在特征空间中进行内积计算。比如,支持向量机,把输出空间的线性不可分问题转化为特征空间的线性可分问题。
核方法的技巧在于不显式地定义这个映射,而是直接定义核函数,即映射之后在特征空间的内积。。