本章概要
本章介绍了线性分类器和支持向量机(Supprt Vector Machine, short for SVM)。同时,还介绍了一些数据预处理的相关实践。SVM的原理比较高深,本章没有详细的说明,只是介绍了如何采用python中的LIBSVM库,进行SVM的训练和预测。线性分类器虽然简单,但是与SVM还是有一定联系,所以本章最开始介绍了线性分类器。
决策树的不足
本章给出的例子是交友网站上的配对预测,经过数据预处理后,主要是一些数值数据。使用决策树分类,会发现节点基本上是在同一类数据上不同值之间来回变化,比如年龄(如下图)。所以,决策数并不适合数值关系负责,没有明确分割点的数据分类。
数据伸缩
对于一个向量v=(x1, x2);如果x1的作用域为[1 ~ 100],而x2的作用域为[0~1],那么比较两个同类向量时,x1的贡献比x2大。但是这是我们不希望看到的,所以可以对x1进行伸缩变换,将其等价的映射到【0~1】中的某个值。
线性分类 & Kernel Method & SVM
上面这几个概念,书上均是通过一些例子讲解,虽然可以看懂,但是感觉还是没有讲到原理。这个可以后续深入研究,目前先有个映像。SVM可以用来分类,而且效果比线性分类好,可以适应复杂数值数据的场景。