首页 > Python基础教程 >
-
Python正则表达式的七个使用范例(2)
然而search()方法会在它查找到一个匹配项之后停止继续查找,因此在我们的示例字符串中用searc()方法查找‘dog'只找到其首次出现的位置。
1
2
3
|
>>> match = re.search(r 'dog' , 'dog cat dog' ) >>> match.group( 0 ) 'dog' |
4. 使用 re.findall – 所有匹配对象
目前为止在Python中我使用的最多的查找方法是findall()方法。当我们调用findall()方法,我们可以非常简单的得到一个所有匹配模式的列表,而不是得到match的对象(我们会在接下来更多的讨论match对象)。对我而言这更加简单。对示例字符串调用findall()方法我们得到:
1
2
3
|
[ 'dog' , 'dog' ] >>> re.findall(r 'cat' , 'dog cat dog' ) [ 'cat' ] |
5. 使用 match.start 和 match.end 方法
那么,先前search()和match()方法先前返回给我们的‘match'对象”到底是什么呢?
和只简单的返回字符串的匹配部分不同,search()和match()返回的“匹配对象”,实际上是一个关于匹配子串的包装类。
先前你看到我可以通过调用group()方法得到匹配的子串,(我们将在下一个部分看到,事实上匹配对象在处理分组问题时非常有用),但是匹配对象还包含了更多关于匹配子串的信息。
例如,match对象可以告诉我们匹配的内容在原始字符串中的开始和结束位置:
1
2
3
|
>>> match = re.search(r 'dog' , 'dog cat dog' ) >>> match.start() >>> match.end() |
知道这些信息有时候非常有用。
6. 使用 mathch.group 通过数字分组
就像我之前提到的,匹配对象在处理分组时非常得心应手。
分组是对整个正则表达式的特定子串进行定位的能力。我们可以定义一个分组做为整个正则表达式的一部分,然后单独的对这部分对应匹配到的内容定位。
让我们来看一下它是怎么工作的:
1
|
>>> contactInfo = 'Doe, John: 555-1212' |
我刚才创建的字符串类似一个从某人的地址本里取出来的一个片段。我们可以通过这样一个正则表达式来匹配这一行:
1
2
|
>>> re.search(r '\w+, \w+: \S+' , contactInfo) <_sre.SRE_Match object at 0xb74e1ad8 < |
通过用圆括号来(字符‘('和‘)')包围正则表达式的特定部分,我们可以对内容进行分组然后对这些子组做单独处理。
1
|
>>> match = re.search(r '(\w+), (\w+): (\S+)' , contactInfo) |
这些分组可以通过用分组对象的group()方法得到。它们可以通过其在正则表达式中从左到右出现的数字顺序来定位(从1开始):
1
2
3
4
5
6
|
>>> match.group( 1 ) 'Doe' >>> match.group( 2 ) 'John' >>> match.group( 3 ) '555-1212' |
组的序数从1开始的原因是因为第0个组被预留来存放所有匹配对象(我们在之前学习match()方法和search()方法到时候看到过)。