👨‍🎓️📊 数据科学家——从初学者到专业人士的 12 个步骤

2025-06-09

👨‍🎓️📊 数据科学家——从初学者到专业人士的 12 个步骤

对于那些希望从零开始打造数据科学职业生涯的人来说,这12个步骤至关重要。下方是行动指南和一些实用资源的链接。

来源:proglib.io

1. 决定你想成为什么样的人💭

数据科学领域正在蓬勃发展。但数据科学不仅包括神经网络,还包括经典统计学和机器学习算法(对于业务流程来说更容易理解),以及与数字形式的信息分析、处理和呈现相关的一切。

数据科学领域目前尚无明确的分工——这是一个非专业化的职业。粗略地打个比方:正如过去纯粹的“计算机科学家(计算机科学家和程序员)精通所有与计算机相关的知识一样,现在也出现了“数据科学家”,他们从事与数据相关的所有工作。在线教育领域是迈向分工的第一个标志。

无论如何,数据科学家的工作涉及多个领域的交叉领域:

  • ▶️数学(包括线性代数、机器学习算法)

  • ▶️编程(例如 Python、R、SQL 通常是最低要求)

  • ▶️商业问题(是的,除了计算机科学,你还应该了解什么是业务流程以及如何改进它)

根据你在团队中的角色,其中一些事情需要做得更多。选择发展方向时,要从你自己的兴趣出发——学习需要大量的资源,如果你不热爱你的工作,你很快就会倦怠。数学基础是必要的,但个人任务范围很可能会局限于使用现有的工具和知识,而不是发明新的东西。正如KV Vorontsov在一次采访中所说:

懂得使用现成算法的人需要的数学知识比这多50倍、100倍甚至500倍。如何教授计算机科学以及“更多数学还是更多工程学”的问题似乎有以下答案:两者都需要,但你必须把数学教给一群精心挑选的、已经意识到自己是新方法的创造者和设计者的人。

2. 拉起数学基础➕

如果你想真正理解机器学习算法,你首先需要理解线性代数多元微积分概率论和数理统计

Stepik 为每个知识测试领域提供合适的免费视频课程:

如果插图和可视化还不够,我强烈推荐你看看精彩的频道3Blue1Brown。里面有线性代数分析微分方程的播放列表。

顺便说一句, **可汗学院频道**上有一个关于多元数学分析的175个视频的详细课程

观看视频讲座时,别忘了快进功能。为了运用运动记忆,深入理解内容,请做好笔记。

3. 学习编程

除了数学之外,你还需要会编程。通常,数据分析师会选择 Python 或 R 作为主要语言。Stepik 提供这两种语言的优秀课程,其中有一些侧重于数据分析:

数据科学新手经常会问,该选择哪种语言呢?是专为数据处理而生的 R 语言,还是通用的 Python 语言?虽然这是一个热门话题,但我个人是从 R 开始的(计算生物学领域的人更喜欢 R)。现在我了解这两种语言,强烈建议先从 Python 开始,因为从 Python 过渡到 R 比从 Python 过渡到 R 更加顺畅。

简而言之:如果你计划从事数据科学行业,我建议你精通这两种语言。了解 R 的概念和库将使你比只使用 Python 的用户领先一步,反之亦然。数据分析师Irina Goloshchapova对此是这样评价的:

在某些情况下,结合使用最强大、最稳定的 R 和 Python 库,可以提高计算效率,甚至避免为了实现任何统计模型而发明自行车。
其次,如果团队中的不同成员(或您自己)精通不同的语言,这还能提高项目执行的速度和便利性。合理地结合现有的 R 和 Python 编程技能会有所帮助。

但是如果你想走一条虽然不简单但更轻松的路,那么一个 Python 就足够了——你会在上面找到更多课程和各种问题的答案

4. 学会使用工具🛠️

最流行的共享数据分析结果的工具之一是 Jupyter Notebook:

Jupyter Notebooks 和 Jupyter Lab 平台允许您将代码、Markdown 文本和 LaTeX 公式、测试和性能分析合并到一个文档中。或者,您也可以使用Google ColabJupyterHub在笔记本上进行协作。

尽快学习使用 Git 。在这个过程中,你需要在各种模型和架构方案之间做出选择——版本控制在这里非常有用。

此外,GitHub 上还有很多优秀的数据科学项目。记住,开源是获得必要的团队合作经验并为共同目标做出贡献的最简单方法之一。

随着课程的进展,你自然会遇到其他流行的工具。例如,在 Python 中,为了高速处理数据数组,需要了解NumPy ;为了进行表格数据呈现,通常使用Pandas数据框;为了进行可视化,可以使用MatplotLibPlotly ,并从Scikit-learn导入流行机器学习模型的现成类

很少有课程关注这一点,但在实践中,数据通常存储在数据库中——SQL 或 NoSQL。为了进一步学习,你需要学习如何与它们通信:

对于深度学习,你需要熟悉一些框架——TensorFlow 或 PyTorch。当然还有其他框架——我们在“用 PyTorch 编写你的第一个生成对抗网络模型”一文中对它们进行了比较。

5. 尽可能多地参加数据科学课程

课程:

教科书:

替代文本

替代文本

替代文本

替代文本

替代文本

替代文本
替代文本

6. 加入开放数据科学社区👥

从数据科学领域的英语新闻聚合器中我们可以学到很多有趣的事情:

7.参加比赛🤼

在Kaggle上注册。它不仅是最著名的提供现金奖励的机器学习竞赛平台,也是一个拥有大量数据集、Jupyter 笔记本迷你课程讨论区的大型社区。在简历中加入 Kaggle 排名可以为你的面试加分。

<!-- -->

8. 探索具体的数据科学问题

数据科学是一个非常广泛的跨学科领域,解决特定问题需要特殊的技能。熟悉 Kaggle 之后,你会更清楚地了解自己在哪些必备知识方面存在差距。

还请关注以下课程:

YouTube 频道也很方便:

在计算机科学中心的 YouTube 频道上,特殊部分的课程被方便地组织到播放列表中:

不要停止学习。浏览顶部和侧边栏的子版块,了解与机器学习相关的主题:

9. 每门课程结束时,做一个项目🏗️

运用数据科学领域的新知识,造福自身和他人。创造一些令人惊叹的作品!许多项目创意都列在**awesome-ai-usecases **、**51 个玩具数据问题****practical-pandas-projects **中。

你可以不从项目开始,而是从一个有趣的数据集开始。热门注册中心列表:

在 Quora 上可以找到很多有关项目想法的讨论:

在 GitHub 上为每个项目创建一个公共仓库。完善成果,并在你的博客和社区上分享。为业余项目做贡献,分享你的想法和观点。所有这些都能帮助你建立作品集,并结识从事相关工作的人员。

10.阅读科学文章

数据科学的主要语言不是Python或R,而是英语和数学语言。

文章的预印本发表在ArXiv 网站上。对数据科学家最有用的部分如下:

追踪所有出版物几乎是不可能的。上面列出的 Reddit 分支有助于筛选出最重要的文本(自从作者成为特斯拉 AI 部门负责人以来,该网站开始频繁崩溃,但它仍然是最好的工具)。此外,还有一个包含评论的文章列表,以及来自 YouTube 频道 Kaggle 的网络研讨会录音,其中包含与数据科学算法相关的科学文章的解析

11. 参加数据科学实习/工作

数据科学是一个竞争激烈、需求旺盛的职业。但即使是面试结果,社区成员也会将其转化为数据。数据科学家面试准备中,有很多问题需要注意:

今年的难度更大,但我们希望暑期学校和实习能够尽快回归:

一定要运用你的数据挖掘技能来分析就业市场——分析哪些技能在工作中更常见,并尽可能地磨练这些技能。估算一下你的预期收入,把网站建设、租房以及搬到其他城市的支出都考虑进去。

12. 与社区分享你的经验📢

与数据科学社区分享你的项目或发现新项目。准备一个演讲,并在当地聚会上发言。创建一个博客,分享你的发现、你的想法和代码库。

最后但同样重要的是,享受你的技能如何帮助世界变得更美好!

13.阅读更多

如果您觉得这篇文章有帮助,请点击下面的💚或👏按钮,或在 Facebook 上分享该文章,以便您的朋友也能从中受益。

https://slidetosubscribe.com/raevskymichail/

鏂囩珷鏉ユ簮锛�https://dev.to/mikhairaevskiy/data-scientist-12-steps-from-beginner-to-pro-3fh6
PREV
JavaScript Katas:将数字数组拆分为奇数和偶数
NEXT
Coding solutions with AI The world changed Solving problems with AI A simple example