西瓜书——基本术语
基本术语
在计算机系统中,“经验”通常以“数据”形式存在,因此,机器学习所研究的主要内容,是关于在计算机上从数据中产生“模型”的算法,即“学习算法”(learning algorithm)。
以西瓜的例子开始,学习过程为像人一样判断和分别西瓜;
输入空间
- Data set
- 假设我们有了一组西瓜的数据,例如「色泽=浅白;根蒂=硬挺;敲声=清脆」,被记录的数据组成了“数据集”。
- Instance
- 其中每个事件或者对象(这里是每个西瓜)的描述,称为“示例”,也可以叫sample。
- Attribute
- 里面的“色泽”,“根蒂”,“敲声”称为“属性”,也可以叫feature。
- Attribute value
- 属性上的取值,如“浅白”,“清脆”,称为”属性值“。
- Attribute space
- 属性张成的空间称为“属性空间”,也可以叫sample space或者input space。
- Feature vector
- 例如我们把“色泽”,“根蒂”,“敲声”作为三个坐标轴,用它们张成的空间来描述西瓜;
- 那么每个西瓜都可以在这个空间中找到自己的坐标位置;
- 由于空间中每个点对应一个坐标向量,因此我们也把一个示例叫做一个特征向量feature vector。
学习过程
training data&training set
- 从数据中学得模型的过程称为learning或者training,这个过程通过执行某个学习算法来完成;
- 训练过程中使用的数据称为“训练数据”,其中每个样本被称为“训练样本”,由训练样本组成的集合为“训练集”。
hypothesis&ground-truth
- 学得的模型对应了关于数据的某种潜在规律,因此亦称为“假设”;
- 这种潜在规律的本身称为“真相”;
- 学习过程就是为了找出或者逼近真相。
prediction&label&exampe
如果希望学得一个能帮助我们判断没剖开的是不是“好瓜”的模型,仅仅有前面的示例数据显然是不够的。
要建立这样的“预测”模型,我们需获得训练样本的“结果信息”,例如(「色泽=青绿;根蒂=蜷缩;敲声=浑浊」,好瓜)。
这里的“好瓜”称为“标记”,拥有了标记信息的示例,称为样例example。label space
- 标记可以取值的空间称为“标记空间”,也称为“输出空间”。
分类&回归
若我们欲预测的是离散值,例如“好瓜”“坏瓜”,此类学习任务称为“分类”;
若欲预测的是连续值,例如西瓜成熟度0.95、0.37,此类学习任务称为“回归”。二分类&多分类
“二分类”任务中,通常其中一个称为“正类”positive class,另一个称为“负类”negative class;
“多分类”任务,一般预测任务是希望通过对训练集进行学习,建立一个从输入空间到输出空间的映射。
测试
testing&test sample
学得模型后,使用其进行预测的过程称为“测试”testing,
被预测的样本称为“测试样本”(test sample)。clustering
即将训练集中的西瓜分成若干组,每组称为一个“簇”(cluster);
这些自动形成的簇可能对应一些潜在的概念划分,例如“浅色瓜”,“深色瓜”,甚至“本地瓜”、“外地瓜”;
注意,在聚类学习中,“浅色瓜”“本地瓜”这样的概念我们事先是不知道的;而且在学习过程中使用的训练样本通常不拥有标记信息。监督学习与无监督学习
根据训练数据是否拥有标记信息,学习任务可以大致划分为两大类“监督学习”和”无监督学习“;
分类和回归是前者的代表,聚类则是后者的代表。
目标
- generalization
需要注意的是,机器学习的目标是使得学得的模型能很好的适用于“新样本”,而不是仅仅在训练样本上工作得很好;这种能力称为“泛化”。
- distribution
通常假设样本空间中全体样本服从一个未知“分布”D,我们获得的每个样本都是独立地从这个分布善能采样获得的,即“独立同分布”。
一般而言,训练样本越多,我们得到的关于D的信息越多,这样就越有可能通过学习获得具有强泛化能力的模型。