dev.to 适合 Web 开发者和初学者 - 我有数据可以证明这一点
dev.to 适合 Web 开发人员和初学者,我有数据可以证明这一点
(横幅:前 100 个标签,与其文章数量成比例)
我使用 dev.to 已经有一段时间了,我注意到我看到的大多数特色文章都与 Web 开发有关( javascript
、 webdev
),或者针对初学者( beginners
、 基本 git 命令 等)。
我写了几篇文章,我觉得还不错(好吧,也不算 太好 ),但好像没什么人气。是不是因为我写的不是社区真正关心的事情?
为了避免一头雾水,我尝试更好地理解 dev.to 上哪些方法有效,哪些无效。以下是我的分析总结。
免责声明
我不是数据科学家,只是利用业余时间做的。我尽力保持客观公正,并清晰地解释我的工作内容,以便您能够发现潜在的偏见和陷阱。
完整的交互式图表分析可以在 https://derlin.github.io/dev.to-is-for-web-devs-and-beginners/analysis.html找到。
完整代码可在 GitHub 上找到:
分析 dev.to 上可用的标签。完整文章:https://dev.to/derlin/devto-is-for-webdevs-and-beginners-i-have-data-to-prove-it-54c4
欢迎自行运行、改进并分享您的成果!(如果您在某处撰写了相关内容,请提及我的工作,🌟 代码库 :))。
收集的数据
方面
我主要对四个维度感兴趣:
文章类型( 标签 ),
文章数量( count ),
积极反应的数量( 反应 ),以及
评论数( comments )。
文章还有许多其他属性(阅读时间、发布时间等),但我现在将它们放在一边。
数据集
我于 2022 年 11 月 13 日 使用 Python 收集了两个不同的数据集。
热门文章
第一个数据集包含有史以来排名前 10,000 的文章(即反应最积极的文章),使用以下 https://dev.to/search/feed_content
端点收集:
count = 1
curl "https://dev.to/search/feed_content?class_name=Article&per_page= $count &sort_by=public_reactions_count&sort_direction=desc"
Enter fullscreen mode
Exit fullscreen mode
热门标签
第二个数据集包含前 100 个标签。对于每个标签,我收集了文章总数和前 100 篇文章。
可以使用 forem API 获取 热门标签 :
curl https://dev.to/api/tags?per_page= 100&page= 0
Enter fullscreen mode
Exit fullscreen mode
或者通过废弃页面 https://dev.to/tags 。
然而,这两种方法返回的结果并不 相同 ...由于 API 返回了 4 个不存在的标签( 404 Not Found for macosapps
、 southafricanews
、 sportnews
和 latestnigerianewslat
),我决定抓取 https://dev.to/tags 页面。
没有 API 端点来获取 每个标签的文章数量 ,但它们显示在 dev.to 上的两个地方(“ 已发布 XXX 篇文章 ”):
在标签页面 https://dev.to/tags 上,以及
在每个标签页面上 https://dev.to/t/<TAG>
问题是,它们根本不匹配, (1) 通常远高于 (2)。
例如,在撰写本文时, 标签页面上的 archlinux
标签显示“ 已发布 34635 篇文章”,但 https://dev.to/t/archlinux页面上的标签 显示“已发布 151 篇文章 ” ...为了解决这个问题,我滚动直到没有新的获取,并获得了 181 篇文章。
因此,我决定依赖标签页上找到的数字 (2)。
ⓘ 有关差异的更多信息,请参阅 https://derlin.github.io/dev.to-is-for-web-devs-and-beginners/difference.html 。
最后, 可以使用相同的端点获取 每个标签的热门文章 https://dev.to/search/feed_content
,只需一个额外的参数:
count = 1
# the separator is ', ', so ',%20' when url-encoded
tags_query_param = '&tag_names[]=javascript,%20webdev'
curl "https://dev.to/search/feed_content?class_name=Article&per_page= $count &sort_by=public_reactions_count&sort_direction=desc& $tags_query_param "
Enter fullscreen mode
Exit fullscreen mode
热门标签
撰写本文时, https://dev.to/tags 上列出的 100 个标签如下:
More than 30K articles:
javascript (67K), webdev (55K), beginners (43K)
Between 20K-30K articles:
tutorial, react, programming
Between 10K-20K articles:
python, discuss, productivity, css, career, node,
devops, codenewbie
Between 5K-10K articles:
html, opensource, typescript, aws, showdev, github, java,
testing, docker, php, security, linux, vue, ruby, git
Between 2K-5K articles:
angular, go, database, dotnet, csharp, serverless,
machinelearning, kubernetes, rails, computerscience,
cloud, android, design, laravel, azure, api, algorithms,
architecture, help, learning, datascience, vscode,
reactnative, graphql, frontend, nextjs, flutter,
watercooler, django, ios, codepen, sql, rust,
todayilearned, blockchain, performance
Between 1K-2K articles:
hacktoberfest, startup, kotlin, motivation, news, coding,
challenge, mongodb, development, microservices,
tailwindcss, postgres, cpp, npm, ux, gamedev, wordpress,
writing, devjournal, mobile, dart, leetcode, ai, agile,
firebase, management, tooling, meta, braziliandevs, mysql
Less than 1K articles:
web3, community, cybersecurity, actionshackathon21, archlinux
Enter fullscreen mode
Exit fullscreen mode
让我们绘制这 100 个标签的文章数量(计数)、回复和评论数量,并按数量排序。 由于 dev.to 上没有可用的回复或评论总数,因此这些数据取自每个标签前 100 篇文章的总和。
重要提示 :请记住,一篇文章最多可以有四个标签,因此一篇非常受欢迎的文章可以提高多个标签的分数!
( 交互式版本 和 未规范化的交互式版本 )
我们可以看到,前几个标签占据了大部分文章。评论和回复也大致遵循相同的趋势,先出现高峰,然后出现下降。让我们放大查看前 30 个标签:
仅取前 4 个标签,我们占前 100 个标签所有文章的 30%:( javascript
10.76%)、 webdev
(8.85%)、 beginners
(6.93%)、 tutorial
(4.65%)→31.10%!
观察全图 上 反应 的峰值和下降 ,某些类型的标签明显会产生“ 反应峰 ”:
与网络相关 的 标签 , 例如: react
,,,,,, ... css
html
vscode
vue
frontend
通用 标签 如 : productivity
,,,,,,, ... career
computerscience
design
architecture
learning
motivation
github
、 git
和 docker
,这是任何 (Web) 开发人员都应该知道的基本工具
另一方面,一些标签组表现出明显的“ 反应下降 ”:
与 Web 无关 的 语言 / 框架 : php
,,,,, ... ruby
android
laravel
kotlin
devops 主题 : devops
,,,, ... cloud
aws
azure
datascience
和 testing
(← 这个是出乎意料的)
前 7 个标签的前 100 篇文章占数据集中所有正面反应的 30%:( webdev
6.15%)、 javascript
(5.95%)、 beginners
(5.44%)、 career
(3.80%)、 react
(3.78%) 、(3.72% productivity
)、 css
(3.66%)→32.5%。
从 评论 的角度来看, 一些明显的标签出现了高峰: discuss
、、、、、 。 看到像 或 这样的标签也出现峰值,我并不感到惊讶 。 的 评论 量 激增,我猜是因为它是 Web 开发人员的首选编辑器(IDE 是神圣的)。我很惊讶地看到 和产生了如此多的评论 。 watercooler
meta
writing
help
showdev
career
productivity
vscode
linux
opensource
与反应类似,与 Web 无关 或 以 devops 为重点 的语言/框架的标签 评论较少: python
,,,,,,,,, ... devops
aws
testing
machinelearning
kubernetes
aws
datascience
史上最热门的 10,000 篇文章
标签数据集的数据存在诸多缺陷: 计数 无法保证准确,而且只能根据排名前 100 的文章推断用户反应和评论,这远非理想。因此,我们不妨看看历史上排名前 10,000 的文章。
注意 : 数据集中 最旧的文章发表于 2016 年 4 月, 最新文章 发表于 2022 年 11 月,这两个极端的分布相当均匀。所以,数据集中的文章并非全是旧文章!
由于文章有多个标签,因此我们对数据集进行“爆炸式”处理,一篇包含 4 个标签的文章将产生 4 行数据(每个标签一行)。然后,我们按标签对每行数据进行分组。计数(文章数量)、回复和评论的分布如下:
数数
反应
评论
意思是
21
7024
439
标准差
192
67,768
3,719
分钟
1
122
0
25%
1
175
12
50%
1
335
二十九
75%
4
1,012
88
最大限度
4,515
1,631,495
89,391
(标签外 1,676
)
看到最大值中 75% 四分位数之间的差异了吗?又有一小部分标签吸引了大部分注意力!
以下是排名前 25 位的标签(已标准化以显示整个数据集的百分比):
( 交互式版本 和 未规范化的交互式版本 )
前 7 个 标签 webdev
,,,,,,,, 占 文章的 53%,评论的 48%,以及反应的 56 % ! javascript
beginners
react
tutorial
productivity
career
css
但还是有一个小问题。由于文章最多有四个标签,一篇非常成功的文章会提升多个标签的得分……
因此,我们 只对文章进行一次计数 。也就是说,如果一篇文章有多个标签,我们只保留最“成功”的标签,即计数、反应或评论值最高的标签(取决于分析的标准)。
使用标准化累积和,我们得到的文章数量 如下 :
webdev
和 javascript
覆盖了 62% 的文章(10K 中有 6K)!仅添加 beginners
、 productivity
和 就 career
覆盖了 80%。
对于反应 也可以看到同样的趋势(对于 webdev
和 的反应 为 66% javascript
,对于添加其他 3 个标签的反应为 84%):
对于 评论 ,我们只有 welcome
插入到第 3 位的标签。其余前 6 位基本保持不变:
奖励:上个月最热门的 5,000 篇文章
文章越老,获得关注的机会就越大。也许自从 dev.to 成立以来,这种趋势已经发生了变化?
为了确保基于热门文章数据集得出的结论是正确的,我 使用稍微修改过的热门文章数据集重新运行了 分析笔记本:2022 年 10 月 16 日至 11 月 16 日之间的前 5K 篇文章。
我如何获取数据
我还没有提交结果,但是您可以通过 published_at[gte]=<isodate>
向查询添加参数自己获取类似的数据 https://dev.to/search/feed_content
。
请注意,我也尝试添加一个 published_at[lte]
参数,但似乎不起作用......
我于 11 月 16 日运行了它并使用了以下查询参数:
published_at%5Bgte%5D=2022-10-16T06%3A52%3A04Z
Enter fullscreen mode
Exit fullscreen mode
获取上个月的文章。
以下是此新数据集中出现的前 25 个标签(共 1,487 个):
(10 月 16 日至 11 月 16 日期间排名前 5000 的文章标签)
仅计算一次文章,上个月 60% 的热门文章被以下文章覆盖: webdev
(23.92%)、 <无标签> (14.12%)、 beginners
(9.94%)、 javascript
(8.38%)、 programming
(5.50%)→61.86%。
上个月热门文章的 60% 反应 webdev
被覆盖: (43.91%)、 javascript
(10.68%)、 beginners
(8.35%)→62.93%。
最后,60%的 评论 被覆盖: webdev
(29.01%), discuss
(15.12%), welcome
(9.66%), javascript
(9.31%)→63.10%。
与历史上排名前 10,000 的文章相比,趋势没有太大变化,只是没有任何标签的文章数量有所增加。
结论
无论如何, webdev
、 javascript
和 beginners
是 dev.to 上迄今为止使用率最高的标签。它们占据了 有史以来排名 前 10,000 的文章的 50% 以上,并且比任何其他标签都拥有更多的评论和积极反响。
webdev
仅此一项就覆盖了有史以来 10,000 篇热门文章的 12%,以及上个月 5,000 篇热门文章的 20%。
紧接着,我们发现了诸如 productivity
和 之类的标签 career
,它们也占据了很大一部分。
查看其他成功的标签,我们发现大多数与 webdev 相关的标签( react
、 vscode
等)、适合初学者的标签( codenewbie
、 tutorial
等)和通用标签( programming
、 opensource
等)。
(标签云基于 dev.to 上排名前 10,000 篇文章中出现的标签)
顶级文章中也存在更具体的标签(与 webdev 无关),但只占很小的比例,并且总体上互动较少。
较弱的断言
其余的趋势比较模糊,因为热门标签数据集和热门文章数据集的结果并不总是一致的。 在观察了一段时间的数据(尤其是热门标签数据集)之后,我的感觉是,dev.to 上“成功”的文章大多是:
Web 开发和 Web 框架文章,
给“新手”的入门文章,
关于生产力和职业/技巧和窍门的通用文章,
关于编码(编程、计算机科学)的通用文章,
所有开发人员(尤其是 Web 开发人员)使用的技术和工具(docker、git、github、vs code)。
而其他语言(尤其是编译语言)和 Web 开发人员日常不使用的框架或更高级的主题则较少/引发较少的反应和评论(kotlin、php、devops、datascience、machine learning 等)。
换句话说, 如果您不是一名 Web 开发人员,但喜欢撰写技术性很强的文章,那么在 dev.to 上可能很难脱颖而出 (但这并不意味着您不应该做出贡献!)
这只是我的分析,也许你看完 完整分析 后会不同意。请在评论区留言告诉我!
文章来源:https://dev.to/derlin/devto-is-for-webdevs-and-beginners-i-have-data-to-prove-it-54c4