机器学习中的回归 - 第 2 部分

2025-06-08

机器学习中的回归 - 第 2 部分

在我们之前的文章中,我们讨论了机器学习、其类型以及一些重要术语。这里我们将讨论回归。回归模型用于预测连续值。根据房屋的大小、价格等特征来预测房价是回归的常见示例之一。它是一种监督学习技术(其中我们标记了训练数据)。

回归的类型

  1. 简单线性回归
  2. 多项式回归
  3. 支持向量回归
  4. 决策树回归
  5. 随机森林回归

简单线性回归

这是最常见、最有趣的回归技术类型之一。我们根据输入变量 X 预测目标变量 Y。由于目标变量和预测变量之间存在线性关系,因此得名线性回归。

假设根据员工的年龄预测其工资。我们很容易发现,员工的年龄和工资之间似乎存在相关性(年龄越大,工资越高)。线性回归的假设是

ml2

Y 代表工资,X 代表员工年龄,a 和 b 是方程的系数。因此,为了根据 X(年龄)预测 Y(工资),我们需要知道 a 和 b(模型系数)的值。

毫升3

线性回归

在训练和构建回归模型时,这些系数会被学习并拟合到训练数据中。训练的目的是找到最佳拟合线,使成本函数最小化。成本函数有助于测量误差。在训练过程中,我们试图最小化实际值和预测值之间的误差,从而最小化成本函数。

图中,红点是实际数据点,蓝线是该训练数据的预测线。为了得到预测值,这些数据点被投影到线上。

总而言之,我们的目标是找到能够最小化成本函数的系数值。最常见的成本函数是均方误差 (MSE),它等于观测值的实际值与预测值之间的平均平方差。系数值可以使用梯度下降法计算,我们将在后续文章中详细讨论。简单来说,在梯度下降法中,我们从一些随机的系数值开始,计算成本函数在这些值上的梯度,更新系数,然后再次计算成本函数。重复此过程,直到找到成本函数的最小值。

多项式回归

在多项式回归中,我们将原始特征转换为给定次数的多项式特征,然后对其进行线性回归。上述线性模型 Y = a + bX 可以转换为如下形式:

ml4

它仍然是一个线性模型,但曲线现在是二次曲线而不是直线。Scikit-Learn 提供了 PolynomialFeatures 类来转换特征。

ml5

多项式回归

如果我们将度数增加到非常高的值,曲线就会变得过度拟合,因为它也会学习数据中的噪声。

支持向量回归

在支持向量回归 (SVR) 中,我们确定一个具有最大边距的超平面,使得最大数量的数据点位于该边距内。支持向量回归 (SVR) 与支持向量机 (SVM) 分类算法几乎相似。我们将在下一篇文章中详细讨论支持向量机 (SVM) 算法。

我们不像简单线性回归那样最小化误差率,而是尝试将误差控制在某个阈值内。在支持向量回归(SVR)中,我们的目标基本上是考虑边界内的点。最佳拟合线是包含最多点数的超平面。

ml6

边界线内的数据点

决策树回归

决策树既可用于分类,也可用于回归。在决策树中,我们需要在每一层级上确定分裂属性。在回归分析中,可以使用 ID3 算法通过降低标准差(在分类中使用信息增益)来识别分裂节点。

决策树是通过将数据划分为包含具有相似值(同质)的实例的子集来构建的。标准差用于计算数值样本的同质性。如果数值样本完全同质,则其标准差为零。

寻找分裂节点的步骤简述如下:

使用以下公式计算目标变量的标准差。

ml7

标准差

按不同的属性对数据集进行拆分,并计算每个分支的标准差(目标变量和预测变量的标准差)。将该值从拆分前的标准差中减去。结果即为标准差减少量。

ml8

选择标准差减少最大的属性作为分裂节点。

根据所选属性的值对数据集进行划分。此过程在非叶子分支上递归运行,直到处理完所有数据。

为了避免过度拟合,我们使用偏差系数 (CV) 来决定何时停止分支。最终,将每个分支的平均值分配给相关的叶节点(回归模型中取平均值,而分类模型中取叶节点的平均值)。

随机森林回归

随机森林是一种集成方法,我们会考虑多个决策回归树的预测。

  1. 选择 K 个随机点
  2. 确定 n,其中 n 是要创建的决策树回归器的数量。
  3. 重复步骤 1 和 2 以创建多棵回归树。
  4. 每个分支的平均值被分配给每个决策树中的叶节点。
  5. 为了预测变量的输出,需要考虑所有决策树的所有预测的平均值。

随机森林通过创建特征的随机子集并使用这些子集构建较小的树来防止过度拟合(决策树中很常见)。

以上是对每种回归类型的简要概述。您可能需要深入研究才能更清楚地理解 :) 欢迎在评论区留言。这也会帮助我学习 😃。感谢您阅读我的文章,如果您喜欢,请继续关注我的后续文章。祝您学习愉快 😃

鏂囩珷鏉ユ簮锛�https://dev.to/apoorvadave/regression-in-machine-learning---part-2-30bb
PREV
验证 API 的不同方法 HTTP 基本身份验证 🔒 API 密钥🔑 基于 OAuth 令牌的身份验证🔐 结论⛳ 您可能喜欢的其他文章😊
NEXT
网页抓取——完整指南