哇!10行代码就能抓取维基百科内容!让我们编写Python脚本来抓取维基百科内容或用于维基百科搜索器:

2025-06-07

哇!只用10行代码就能抓取维基百科内容!

让我们编写 Python 脚本来抓取维基百科内容或维基百科搜索器:

黑客喜欢使用抓取技术来收集数据。〜Ankit Dobhal
原始博客在这里 - >博客

欢迎来到我的博客

你好,我的电脑极客朋友!这是一个关于使用 python 和 bs4(python 模块)抓取维基百科内容的博客,那么网络抓取到底是什么?这个术语从何而来?让我们试着理解一下!!
网络抓取 - :
网络抓取是用于从网站提取数据的数据抓取过程。网络抓取可以由软件用户手动完成,该术语通常指使用机器人或网络爬虫实现的自动化过程。它出现在万维网诞生之时。大多数时候,像谷歌这样的搜索引擎在其搜索结果中使用抓取过程。

使用 Python 进行抓取 - :
可以借助一些软件进行 Web 抓取和爬取,但如今 Python 在 Web 抓取和爬取领域越来越受欢迎,众所周知,Python 是最著名和最强大的脚本语言之一,通常用于黑客和 shell 程序员。Python 有一些令人惊叹和强大的模块和库,使这个抓取过程变得如此简单和有用,Python 中有两个重要模块,一个是请求,另一个是BeautifulSoup

让我们编写 Python 脚本来抓取维基百科内容或维基百科搜索器:

我对如何使用 python 向网站发出获取请求有基本的了解,所以首先我打开我的vscode编辑器并创建文件名为wikipy.py。然后导入sys库(命令行参数)、请求库(用于下载和获取维基百科的方法)和我最喜欢的库BeautifulSoup作为bs4从维基百科页面提取内容)。 现在是时候使用获取方法从维基百科服务器请求数据了,但是等一下,我想创建一个维基百科搜索器,它将根据我的命令行参数抓取数据。所以让我们创建一个变量名作为res来存储获取方法到维基百科搜索网址并将其与我的命令行参数一起添加。注意:如果有任何错误代码和状态代码,我会使用 raise_for_status() 方法,因此此方法将引发该错误并且整个脚本将终止。res下载了整个页面,但是由于它显示的是 html 格式的数据,因此从页面中提取数据很复杂,所以现在是时候使用BeautifulSoup来提取数据了。因此,我创建了一个名为wiki 的变量来提取数据。注意:正如您在 wiki 变量中可以看到的那样,我使用了带有两个参数的 Beautiful Soup 函数,那么它们到底是什么呢?让我们来理解一下。res.text 是页面的文本格式,它是在 res 变量的帮助下下载的,html.parser 是一个解析器,它将帮助我将数据构造为 html 格式。
替代文本

替代文本

替代文本

替代文本

我想根据命令行参数抓取 p 标签的内容,因为维基百科页面的整个文本内容都在 p 标签内。您可以借助 Chrome 和 Firefox 的开发者工具来检查这一点。 现在我使用 .select() 函数来选择 p 标签,并使用 for 循环来循环遍历它,最后使用 .getText() 函数打印 p 标签内的文本元素。
替代文本

替代文本

是的,我们只用了 10 行代码就搞定了,太棒了!
现在是时候用命令行参数运行脚本了 >>
替代文本

感谢大家访问我的博客,你也可以查看我的 wikipy 脚本要点,链接如下!!
wiki.py
在 GitHub 和 LinkedIn 上关注我,获取更多精彩的博客和脚本!

本博客内容基本引用自我的博客网站,请访问原博客:
https://ankitdobhal.github.io/posts/2019/10/Scraping%20Wikipedia%20With%20Python/

文章来源:https://dev.to/powerexploit/wow-scraping-wikipedia-content-with-10-line-of-code-327l
PREV
可访问切换
NEXT
黑客入门 Powershell - 第一部分 Powershell 是什么?Powershell 中的 cmdlet?Powershell 命令 vs Linux 终端命令:Powershell 中的 Get-help?