开篇寄语
伯衡君学习python有成,开始练习爬虫了,python用来爬虫迅速高效,入门简单,有关python的爬虫库有很多,比如Scrapy,Beautifulsoup等等,伯衡君先选择了Beautifulsoup,发现真的是很好用,几分钟就可以入门,分享给大家,对了,之前还分享过不少爬虫的文章,可以参看下方的前情提要。
前情提要
BS4官方文档
学习爬虫做什么?
- 可以爬取薅羊毛信息
- 可以获取最新的市场价格
- 可以获得数量庞大的消息资源
- 可以爬取无数的图片
- 可以爬取视频
- 可以爬取电子书
- 等等
内容详情
学习这个爬虫,需要一点语言基础,当然,如果用伯衡君这样写一个模板,更改里面的链接,倒是不用什么语言基础,需要什么基础呢?
- HTML
- Python
这两个语言基础,都是比较轻量级的语言,可以参看之前伯衡君写的这两篇文章,能够让你快速入门并且学会:
好了,开始咱们的正题,使用Beautiful库来制作爬虫。
首先,需要在设备上安装python,电脑上可以从官网下载,官网是:
如果是在移动端,则可以下载专门的python编辑器,比如carpets或者a-shell等等。
伯衡君这次以电脑端,PyCharm做演示之用。
首先是安装两个库,一个是requests:
pip install requests
接着安装beautifulsoup4这个库:
pip install beautifulsoup4
做好这些后,在编辑器里面就可以引用了,伯衡君就在编辑器里面输入了以下内容:
import requests #引用requests库 from bs4 import BeautifulSoup #引用Beautifulsoup库 url = "https://www.luckydesigner.space" #命名要爬取的网站地址,可替换成你想要替换的网址 req = requests.get(url) soup = BeautifulSoup(req.text, "lxml") for i in soup.find_all("h2"): #爬取目标是<h2></h2>里面的内容,涉及到HTML内容,可以学习一下有利于爬取其他网站 print(i.string)
展示一下,伯衡君的爬取结果如下:
微软“你的手机”让你的电脑串流你的手机的安卓应用 五个值得推荐的苹果电脑MacOS应用 在电子设备上看杂志的App推荐 微软的模拟飞行带你开着飞机浏览世界附下载地址 Google Chrome为快速加载的网站添加了“快速页面”标签 申请美国虚拟号码隐身匿名更加安全 发现一个可以通过台词找影片素材的在线工具 10个看经典影片的应用和网站,一个字——精彩 7个浪漫的成人小说网站 英伟达出品的黑科技,修图堪比Photoshop 美国正创建量子互联网与现行互联网并存 微软和谷歌相继推出Python和Kotlin免费在线教程视频,有兴趣赶紧去学喽 如何查看iPhone或者iWatch的电池循环次数 科技在性方面的推动之男女自动打炮机 如何让YouTube背景播放的另一种方法——使用Musi 人人影视所有资源下载查询库,人人精神永流传 iPhone手机和iPad可以添加轻松识别音乐的小组件——Shazam 华为“全新”系统鸿蒙HarmonyOS被踢爆,原来就是安卓改版 Odysee一个上传视频赚比特币的网站,快来赚钱啦 戴口罩也能解锁iPhone啦,前提是有一个Apple Watch 除了Reface,还有两款Deepfake换脸应用推荐 搞笑!发现一个苏联笑话生成器网站 还在找文字转语音应用?OUT了,直接用Python自己做 电视也能接受RSS消息?没错,使用Kodi,请看这篇 一款专为Safari浏览器打造的隐私神器——Hush 120亿个随机头像任意生成,找到属于自己的专属头像 Python的Pillow库真是一个作图神器,极大提高作图效率 那个被强制下架的社交平台Parler恢复并坚强运营着 进局喝茶捷径之使用搜狗/百度/QQ等中文输入法来泄露隐私 突破壁垒,通过testflight大量安装苹果App Store不让上架的应用 下载利器Youtube-dl据此有人开发了一个应用程序 我为Stackoverflow做了个搜索答案应用程序 比Deepnude脱衣还强大的脱衣应用Dreamtime,甚至能改动图 洋葱浏览器/tor browser访问暗网,隐身匿名,凿洞穿墙 真单纯!谁说Github是程序员专用的?很多意想不到的事你都能做 设计师常用Chrome插件之Page Ruler
这样就包含了首页所有带有<h2></h2>标签的标题:
如果你想保存到文本文件,比如txt文件,可以使用下面这个代码:
import requests from bs4 import BeautifulSoup url = "https://www.luckydesigner.space" req = requests.get(url) soup = BeautifulSoup(req.text, "lxml") f = open("demofile.txt", "w") for i in soup.find_all("h2"): f.write("{}\n".format(i.string)) f.close()
这样,你生成的文件就在这个项目的文件夹内了。
打开这个文件,就可以看到刚刚爬取的内容了。
怎么样,是不是很简单?当然,入门容易,学精难,后续内容伯衡君会一步步更新的。
ArrayArrayArray- 我的微信
- 微信扫一扫加好友
- 我的微信公众号
- 扫描关注公众号