统计学习方法三要素
统计学习方法三要素
统计学习方法都是由模型、策略和算法构成的,即统计学习方法由三要素构成,可以简单地表示为:
$$方法=模型+策略+算法$$
模型
统计学习首要考虑的问题是学习什么样的模型。
在监督学习过程中,模型就是所要学习的条件概率分布或者决策函数。
模型的假设空间包含所有可能的条件概率分布或决策函数。
例如,假设决策函数是输入变量的线性函数,那么模型的假设空间就是这些线性函数构成的函数集合。
假设空间中的模型一般有无穷多个。
假设空间用F表示,假设空间可以定义为决策函数的集合:
$$F={f|Y=f(X)}$$
其中,X和Y是定义在输入空间X和输出空间Y上的变量,这时F通常是由一个参数向量决定的函数族:
策略
算法
算法是指学习模型的具体计算方法。
统计学习基于训练数据集,根据学习策略,从假设空间中选择最优模型,最后需要考虑用什么样的计算方法求解最优模型。
这时,统计学习问题归结为最优化问题,统计学习的算法成为求解最优化问题的算法。
如果最优化问题有显式的解析式,这个最优化问题就比较简单。
但是通常解析解不存在,这就需要用数值计算的方法求解。
如何保证找到全局最优解,并使求解的过程非常高效,就成为一个重要问题。