5 个值得写进简历的数据工程项目创意

2025-05-26

5 个值得写进简历的数据工程项目创意

照片由SigmundUnsplash上拍摄

所有迹象都表明数据工程的未来一片光明。 

Dice 的 2020 年科技就业报告指出,数据工程是 2020 年增长最快的职业。其增长速度高达 50%,而数据科学岗位仅增长了 10%。您可以放心,数据工程的涌入不会在短期内出现衰退。为了支持这一假设,国际数据集团 (IDG) 预测,2021 年至 2024 年数据利用的五年复合增长率 (CAGR) 将超过过去三十年的数据总产量。是的,您没听错,这三十年远早于 Facebook、YouTube 和亚马逊的诞生。


来源

如果您仍然对数据工程的前景不甚乐观,不妨看看它的薪资潜力。截至 2021 年 5 月 9 日,Indeed 已公布了超过 8,000 条薪资信息,数据显示数据工程师的年薪比数据科学家高出 10,000 美元。此外,数据工程的优势不仅仅在于薪资,The New Stack 的一项研究表明,数据工程的竞争比其他技术职位要小。

The New Stack 发现,在 LinkedIn 和 Indeed 的招聘信息中,每个数据科学职位都有 4.76 名合适的申请人,而数据工程职位每个空缺仅有 2.53 名合适的竞争者。对于合适的候选人来说,获得数据工程职位的几率几乎翻了一番。

我们已经证实,数据工程师是一个高薪职位,而且是发展最快的科技领域之一,竞争相对较低。还有什么理由不爱呢?

然而,仅仅从相关领域毕业并不能使您有资格担任数据工程师职位。

你需要相关的实际经验来完善你的硬技能。对于你未来的求职来说,培养和展现这些技能的最佳方式之一是通过类似的数据工程作品集项目。在本文中,我们将探讨五个包含数据源的潜在项目构想。在介绍这些项目之前,你需要了解潜在项目应该包含哪些技能。为此,我们将探讨数据工程师最需要的技能组合。


在数据工程项目中您应该寻找什么?

当您想要构建数据工程项目时,您应该关注几个关键领域。

  • 多种类型的数据源(API、网页、CSV、JSON 等)
  • 数据提取
  • 数据存储
  • 数据可视化(这样你就有东西可以展示你的努力了)。
  • 使用多种工具(即使某些工具可能不是完美的解决方案,为什么不尝试使用 Kinesis 或 Spark 来熟悉它们呢?)

作为一名数据工程师,以上每个领域都能帮助你提升技能,并全面理解数据管道。尤其是创建某种最终视觉效果,尤其是如果涉及到创建一个基础网站来托管它,可以成为一种展示项目的有趣方式。

话不多说,让我们深入探讨一下数据工程项目的一些想法。


使用 Python、Kafka 和 Spark 抓取股票和 Twitter 数据

项目 1

随着加密货币交易所的扩张和GameStop股票的涨跌,股票已经成为热门话题,引起了外界的极大兴趣。

如果您也对交易市场充满热情,我建议您开发一个类似于 CashTag 的项目,该项目是由一位目前在 Reddit 工作的工程师开发的。该项目的目标是开发一个“用于分析美国股市用户情绪的大数据管道”。简而言之,该项目通过抓取社交媒体数据,实时预测人们对特定股票的情绪。以下是该项目工作流程的示意图。


来源

该项目有详尽的文档记录,可以作为您项目的灵感基础,您可以根据自己的兴趣进行调整。


使用 Python 抓取房地产信息并创建仪表板

项目 2

想要接触一些新技术,你可以尝试像 sspaeti 的 20 分钟数据工程项目这样的项目。这个项目的目标是开发一个工具,帮助你优化房屋/租赁房产的选择。

这个项目使用 Beautiful Soup 和 Scrapy 等网页抓取工具收集数据。作为一名数据工程师,你应该接触创建与 HTML 交互的 Python 脚本,而网页抓取也是一个很好的学习方法。有趣的是,这个项目涵盖了 Delta Lake 和 Kubernetes,这两个都是当前的热门话题。
最后,如果没有一个简洁的用户界面来展示你的工作,任何好的数据工程项目都是不完整的。这个项目使用 Superset 进行数据可视化,所有功能都与 Dagster 协同工作。项目中使用的工具种类繁多,非常适合作为作品集。


专注于 StackOverflow 数据分析

项目构想 3

如果你可以分析所有或至少部分公共 Github 仓库,你会问什么问题?

Felipe Hoffa 已经完成了一些此类项目的工作,他 分析了 来自 Google BigQuery 数据集的几篇文章的 TB 级数据。

但有了如此多的数据,开展某种形式的分析项目就有很多机会。例如,Felipe 分析了以下概念:

  • 制表符与空格?
  • 开发人员在周末致力于研究哪些编程语言?
  • 分析 GitHub Repos 中的评论和问题

你可以从很多不同的角度来看待这个项目,它为你,数据工程师,在数据思考方面提供了很大的创造力。 

您可以分析280万个项目的源代码。

也许你可以写一篇类似“ 我们可以在 GitHub 中找到哪些 StackOverflow 代码片段?”的文章。

此外,这个项目构想还应该指出, GCP 和 AWS等平台上存在大量有趣的数据集可供使用 。因此,如果您不想从 API 中抓取数据,您可以随时在这两家云提供商提供的数百个数据集上进行分析。


使用 PredictIt 预测政治和金融事件,而不是股票

项目 4

PredictIt 不仅提供股票预测功能,还通过 API 提供市场数据。如果您不熟悉 PredictIt,它是一个位于新西兰的在线预测市场,提供全球政治和金融事件的预测服务。您可能对上一轮选举的赔率报告很熟悉,这些报告引用的都是与 Predictit 类似的市场数据。

使用他们的实时 API 数据,您可以将峰值与新闻数据进行交叉引用,从而将社交媒体上抓取的数据关联起来。就像之前讨论过的 CashTag 项目一样。您可以找到一种方法,将在线政治讨论与美元价值联系起来。

当然,为什么要止步于此呢?为什么不尝试使用 BigQuery 之类的工具创建一个数据存储系统,并添加其他数据,例如推文、新闻等等呢?

然后花时间规范化这些数据并尝试创建代表所有这些不同数据源之间的连接的表。

这将是一个有趣且具有挑战性的数据工程项目。


抓取通货膨胀数据并利用 CommonCrawl 数据开发模型

项目 5

另一个有趣的项目是由乌萨马·侯赛因博士进行的,他通过在线追踪商品和服务价格的变化来衡量通货膨胀率。考虑到BBC报道称美国经历了自2008年以来最高的通货膨胀率,这是一个重要的话题。

在这个项目中,作者使用了Common Crawl中包含的 PB 级网页数据。 

我还认为这是另一个整理和展示数据工程项目的好例子。我经常提到的一个挑战是,展示你的数据工程工作有多难。 

但是,侯赛因博士的项目记录方式可以展示他所做的工作和所拥有的技能,而无需深入研究所有代码。

Hussain 博士概述了以下数据管道。


结论

在选择项目时,最好的项目是能够在行业兴趣和个人兴趣之间取得平衡的项目。无论你喜欢与否,个人兴趣都会通过你选择的主题体现出来,所以找到你喜欢的项目至关重要。如果你的兴趣包括股票、房地产、政治或其他一些利基类别,你可以将上面列出的项目作为蓝图,应用于你感兴趣的主题。

感谢阅读!如果您想了解更多关于数据咨询、大数据和数据科学的信息,请点击下方。

构建你的第一个数据管道:如何在 Luigi 中构建任务(第一部分)

Greylock VC 及其投资的 5 家数据分析公司

数据科学或数据工程面试前你需要了解的 5 个 SQL 概念

如何改进数据驱动策略

Dremio 到底是什么?为什么它的估值高达 10 亿美元?

破坏数据驱动战略的错误

5 个使用 Python 管理大数据的优秀库

文章来源:https://dev.to/seattledataguy/5-project-ideas-for-data-engineering-to-put-on-your-resume-m47
PREV
数据科学面试学习指南
NEXT
什么是服务器端渲染?