机器学习入门 - 第一部分

2025-05-24

机器学习入门 - 第一部分

几乎每个想尝试这项新技术的人都会想到这个问题。我自己也想知道,我应该从哪里开始?应该涵盖哪些方面?以及如何才能快速学习!

我并不是想给你一份文章清单,让你从中阅读或探索。但我会帮助你理解它。让你对几乎所有重要概念都有基本的了解,这样你就能深入研究它们。让我们开始吧!

  1. 什么是机器学习?
  2. 机器学习的重要类型
  3. 分类算法
  4. 回归算法
  5. 聚类
  6. 成本函数
  7. 共线性
  8. 主成分分析
  9. 梯度下降
  10. 一些机器学习项目可以帮助你入门

ml1


图片来源:http://qingkaikong.blogspot.com/2017/04/machine-learning-10-funny-pictures.html

上述主题列表将在近 5 篇文章中涵盖,以帮助您开始使用 ML。

什么是机器学习?

在机器学习中,你从数据中学习,就是这么简单。我们无需针对特定问题编写任何自定义代码。相反,我们将数据输入算法,算法会根据数据构建自己的逻辑。

ml2

假设你想识别哪些水果是苹果,哪些不是。你不能一直写出苹果的具体尺寸、颜色或大小。因为每个苹果可能看起来相似,但它们的尺寸并不完全相同。这是机器学习最基本的用例之一。在这里,我们将为算法提供所有类型的苹果,也就是不同类型苹果的一组特征。我们的算法会学习这些特征,并将水果分类为苹果或非苹果!

机器学习的类型

毫升3
机器学习的类型

  1. 监督学习:在这种方法中,我们有一个带标签的数据集。我们的模型可以从这些带标签的数据中学习,并帮助进行分类、预测等。在上面的苹果示例中,当我们为模型提供一组特征时,数据集的每一行都会被标记,以表明这些特征是否构成苹果。分类和回归问题都是监督学习的。

  2. 无监督:我们有一个未标记的数据集。也就是说,我们不知道构成苹果的所有特征是什么。一个例子是聚类,我们将相似类型的对象聚类或创建组。

  3. 强化学习:在这种情况下,代理通过与环境交互并从执行动作中获得奖励来从环境中学习。它尝试通过执行某个动作来进入某个状态。它通过为每个动作获得积极或消极的奖励来学习。

在开始讨论分类和回归算法之前,我将列出一组术​​语,以帮助我们更好地理解。

  1. 模型:人们常常对“模型”一词感到困惑。它仅仅是训练过程中产生的产物。你为机器学习算法提供训练数据,算法学习这些数据,最终得到一个训练好的模型。

  2. 训练和测试数据:提供给算法学习的数据称为训练集。预测是基于一个单独的数据集(称为测试数据)进行的。我们利用这些数据来检查训练模型的准确性。

  3. 过拟合与欠拟合:如果一个模型能够很好地学习训练数据,但无法进行泛化,则称其为过拟合。也就是说,即使它在训练数据上取得了良好的结果,但在测试数据上却无法提供良好的预测。如果一个模型无法学习训练数据本身,则称其为欠拟合😄。欠拟合模型在可见数据上表现不佳,更不用说在未见数据上了😝。

  4. 偏差和方差:很多人(包括我自己)都想知道这些误差究竟意味着什么。简单来说,偏差是由于错误的假设而产生的误差。它会导致模型拟合不足。我们可能假设数据是线性的,但实际上它是二次函数。这会导致模型拟合不足。另一方面,方差会导致模型过拟合。这是由于模型对训练数据中的微小变化过于敏感。偏差和方差之间总是存在权衡。减少一个误差会增加另一个误差,反之亦然。

关于机器学习有很多更好的文章。但本文旨在巩固所有重要内容,因为我也在学习和发展我的机器学习技能。我个人更喜欢使用 Python 和 Scikit-Learn。还有其他语言和库,例如 R、Keras、Tensorflow,我们以后可能会进一步探索。

敬请期待本系列的下一篇文章,我们将学习回归算法。祝您学习愉快!😃

文章来源:https://dev.to/apoorvadave/beginning-with-machine-learning---part-1-pbl
PREV
自动生成代码运行时行为的序列图
NEXT
如何选择正确的 API 网关