一起来学Python爬虫基础篇——变量和字符串的基本用法

2021-01-0103:26:00 发表评论

摘要

伯衡君想使用Python这门编程语言进行爬虫，那么就需要掌握Python这门编程语言，肯定是需要掌握基础用法，才能在基础之上进行提高，本篇文章就从Python的变量和字符串的运用开始好了……

分享至：

开篇寄语

伯衡君想使用Python这门编程语言进行爬虫，那么就需要掌握Python这门编程语言，肯定是需要掌握基础用法，才能在基础之上进行提高，本篇文章就从Python的变量和字符串的运用开始好了。

内容详情

以下内容都是Python3版本运行。

变量

Python中的变量很好理解，例如：

alp = 100

这种操作称为赋值，意思为将数值100赋给了变量alp。

注意：Python中语句结束不需要以分号结束，变量不需要提前定义。

现在有变量a和变量b，可以通过下面代码进行变量a、b值的对换。

a = 4
b = 5
t = a #把a值赋给t变量
a = b #把b值赋给a变量
b = t #把t值赋给b变量
print(a,b)

字符串的“加法”和“乘法”

由于Python爬虫的对象大部分为文本，所以字符串的用法尤为重要。在Python中，字符串由双引号或单引号和引号中的字符组成。首先，通过下面代码看看字符串的“加法”：

a = 'I'
b = ' love'
c = ' Python'
print(a + b + c) #字符串相加

Python的字符串不仅可以相加，也可以乘以一个数字：

a = 'word'
print(a*3) #字符串乘法

字符串的切片和索引

字符串的切片和索引就是通过string[x]，获取字符串的一部分信息：

a = 'I love python'
print(a[0]) #取字符串第一个元素
print(a[0:5]) #取字符串第一个到第五个元素
print(a[-1]) #取字符串最后一个元素

注意：a[0:5]中的第5个是不会选择的。

在爬虫实战中，经常会通过字符串的切片和索引，提取需要的部分，剔除一些不需要的部分。

字符串方法

Python作为面向对象的语言，每个对象都有相应的方法，字符串也一样，拥有多种方法，在这里介绍爬虫技术中常用的几种方法。

split()方法

a = 'www.baidu.com'
print(a.split('.'))

字符串的split()方法就是通过给定的分隔符（在这里为‘.’），将一个字符串分割为一个列表（后面将详细讲解列表）。

注意：如果没有提供任何分隔符，程序会把所有的空格作为分隔符（空格、制表、换行等）。

repalce()方法

a = 'There is apples'
b = a.replace('is','are')
print(b)
#输出结果为'There are apples'

这种方法类似文本中的“查找和替换”功能。

strip()方法

a = ' python is cool '
print(a.strip())

strip()方法返回去除两侧（不包括内部）空格的字符串，也可以指定需要去除的字符，将它们列为参数中即可。

a = 'python is good'
print(a.strip('*!'))

这个方法只能去除两侧的字符，在爬虫得到的文本中，文本两侧常会有多余的空格，只需使用字符串的strip()方法即可去除多余的空格部分。

format()方法

最后，再讲解下好用的字符串格式化符，首先看以下代码：

a = '{} is my love'.format('Python')
print(a)

字符串格式化符就像是做选择题，留了空给做题者选择。在爬虫过程中，有些网页链接的部分参数是可变的，这时使用字符串格式化符可以减少代码的使用量。

例如，本站（https://www.luckydesigner.space/），当搜索文章时，网页链接也会发生变化，如在搜索栏中输入book，网页跳转为https://www.luckydesigner.space/?s=rss，可以设计如下代码，只需输入搜索内容，便可返回网页链接。

content = input('请输入搜索内容：') url_path = 'https://www.luckydesigner.space/?s={}'.format(content) print(url_path)

运行程序并输入rss，便可返回网页链接，单击网页链接便可访问网页了。

进阶玩法

当掌握到一定程度后，就可以参看以下文章来进行爬虫啦：

一起来学Python爬虫基础篇——变量和字符串的基本用法

已收录阅读次数: 1,741

开篇寄语

内容详情

变量

字符串方法

进阶玩法

精彩文章

OpenClaw Workspace 完全指南——打造你的专属 AI 编程助手

这个方法可免费无限制调用 Google Bard 的 API，想聊多久聊多久

Python 如何用一行代码利用 AI 生成图片

Python爬虫之Selenium使用无头浏览器来爬取数据

如何通过Python高效处理CSV文件，可以这样操作

Python如何获取地理位置，可以用Geopy这个库

这些Python可视化库或许是你需要的

Python轻松识别验证码使用该库竟然如此简单

Google Colab简直是Python编程神器附玩法

Python轻松学之正则表达式（一）

相关

发表评论取消回复

微信

开篇寄语

内容详情

变量

字符串方法

进阶玩法

精彩文章

OpenClaw Workspace 完全指南——打造你的专属 AI 编程助手

这个方法可免费无限制调用 Google Bard 的 API，想聊多久聊多久

Python 如何用一行代码利用 AI 生成图片

Python爬虫之Selenium使用无头浏览器来爬取数据

如何通过Python高效处理CSV文件，可以这样操作

Python如何获取地理位置，可以用Geopy这个库

这些Python可视化库或许是你需要的

Python轻松识别验证码使用该库竟然如此简单

Google Colab简直是Python编程神器附玩法

Python轻松学之正则表达式（一）

相关

发表评论取消回复

登录 找回密码

微信

登录找回密码