本章中主要包括以下内容:
- 构建简单的分类器
- 构建逻辑回归分类器
- 构建朴素贝叶斯分类器
- 拆分数据集进行训练和测试
- 使用交叉验证评估准确性
- 可视化混淆矩阵
- 提取性能报告
- 根据汽车的特性评估汽车
- 提取验证曲线
- 提取学习曲线
- 估计收入
介绍
在机器学习领域, 分类是指使用数据的特征将其分成一定数量的类的过程. 这不同于我们在前一章讨论的回归, 其中输出是一个实数. 监督学习分类器使用标记的训练数据构建模型, 然后使用该模型来分类未知数据.
分类器可以是实现分类的任何算法. 在简单的情况下, 该分类器可以是简单的数学函数. 在更多的现实世界的情况下, 这个分类器可以采取非常复杂的形式. 在研究过程中, 我们将看到分类可以是二进制的, 其中我们将数据分成两个类, 或者它可以是多类, 其中我们将数据分成两个以上的类. 设计来处理分类问题的数学技术倾向于处理两个类, 因此我们以不同的方式扩展它们以处理多类问题.
评估分类器的准确性是世界机器学习中的重要一步. 我们需要学习如何使用现有数据来了解这个模型在现实世界中的表现. 在本章中, 我们将看看处理所有这些事情的食谱.