搜索结果
Powered by: Simple-Jekyll-Search
《机器学习》(周志华西瓜书)第一章笔记。
本书的绪论不是水字数,而是重点于概念介绍。不过鉴于很多概念经常被提起,大多数同学已经知道其含义了,所以本章的笔记对这种概念不再赘述。如果想详细了解,请去翻书吧。
讲述了一个西瓜的例子,略。
这章的主要内容其实就是基本概念,所以这一节会尤其的长,而且通常这节是不会有子节的,这里按照概念的所属进行了分类。
但不管怎么说,绪论应该不太会考,但是这些概念将在后面反复被用到。
分类:给定一个样本,将其划分到某个类别中。
二分类:将样本划分到两个类别的一个中,通常是做“是不是”的判断。 多分类:将样本划分到多个类别的一个中,通常是做“是什么”的判断。 回归:给定一个样本,预测其输出值。
数据集:一组记录的集合,集合中的每个元素都是对于一个事件或对象的描述,称为一个样本(sample)或示例(instance)。
似乎数据集总是可以表示为一个标准的二维表,每行表示一个样本,每列表示一个属性(attribute)或者说特征(feature)。
属性空间(attribute space)/样本空间(sample space)/输入空间:属性张成的空间。
关于这点其实可以参考向量空间的定义。简单来说就是,对于一个三维向量,三个轴分别代表三类属性,某一类的可枚举项越多,这个轴就越长。通过这种方式撑起来的空间就是样本空间。当然,对于维度高于3的就是个高维空间了,但思想仍然是类似的。
可以想象,样本空间涵盖了所有可能的样本点。
特征向量:其实也就是一个样本,它也对应样本空间中的一个点。
监督学习:训练集中的每个样本都有一个对应的输出值,即“标记”(label),该情况下的学习任务称为监督学习。
无监督学习:训练集中的每个样本都没有对应的输出值,该情况下的学习任务称为无监督学习。
强化学习:学习算法不需要训练数据集,而是通过与环境的交互来学习。
归纳:从特殊到一般的“泛化”过程,即总结经验。
演绎:从一般到特殊的“特化”过程,即利用经验解决问题。
*
表示。归纳偏好:不同学习器的对某种类型假设的偏好。
定理的公式部分略,反正也不考,理解一下思想就行。
主要包括以下两点:
- 如果一个算法A在某些问题上的泛化能力要优于算法B,那么必然存在一些其他问题,算法B要优于算法A。
- 若所有类型的问题出现机会相同或同样重要,那么算法A和算法B的性能的期望是相同的。 但也不要过度沮丧,我们的模型只是为了解决当前问题而诞生的,并不用考虑其他问题。因此可以说:脱离具体问题而空泛地谈论“什么学习算法更好”毫无意义。
题目内容
分析与解答
编号 | 色泽 | 根蒂 | 敲声 | 好瓜 |
---|---|---|---|---|
1 | 青绿 | 蜷缩 | 浊响 | 是 |
4 | 乌黑 | 稍蜷 | 沉闷 | 否 |
(青绿, 乌黑, *)
三种取值;根蒂有(蜷缩, 稍蜷, *)
三种取值;敲声有(浊响, 沉闷, *)
三种取值,则共有$3\times3\times3=27$种取值。