python网络爬虫开发：正则表达式的学习

2022-8-7

学习爬虫的过程中，正则表达式能够帮助我们根据某些复杂的规则去处理复杂的字符串，它是一个特殊的字符序列，在Python中，系统自带的re模块包含了正则表达式的全部功能，下面我们进入正则表达式的学习。

1. 元字符

正则表达式的结构由普通字符和元字符组成，普通字符就是我们日常使用的文本字符，而元字符有它特定的含义，具有匹配信息的功能。

常用的正则表达式元字符如下表格：

2. 元字符功能

1) 字符类[]

例如在一个列表中有‘apython’、‘bpython’、‘cpython’、‘dotcpp’四个元素，我们使用‘[abc]python’可以直接匹配到前面三个元素。

2) [a-zA-Z0-9]

这个可以匹配一个任意大小写字母或者数字，等同于\w。

3) 重复 {}

如果我们使用{n},即‘pyt{}on’，只能匹配到python，使用{n,}可以匹配至少n次，使用{n,m}可以匹配至少n次，最多m次。

4) 开始于结束字符

使用‘^’和‘$’可以匹配一行字符串的开始和结束。

5) a|b

可以匹配a或者b。

6) 匹配出现次数

语法格式如下：

import re
s = '1234567'
p1 = r'\d?'
print(re.search(p1,s))

可以改为\d*或\d{2,3}或d+等来进行匹配。

输出结果为：

1	`<re.Match` `object; span=(0,` `1), match='1'>`

由于‘？’为匹配0次或一次，所以匹配了出现数字一次。

3. 总结

本节我们主要总结了正则表达式里的元字符及几种常用的功能，这些元字符在我们后续的学习中会涉及到，大家可以回过头来参考本节的内容。

THE END