Python正则表达式的七个使用范例(2)

当前位置:

然而search()方法会在它查找到一个匹配项之后停止继续查找，因此在我们的示例字符串中用searc()方法查找‘dog'只找到其首次出现的位置。

1

2

3

						>>> match = re.search(r'dog', 'dog cat dog')

						>>> match.group(0)

						'dog'

目前为止在Python中我使用的最多的查找方法是findall()方法。当我们调用findall()方法，我们可以非常简单的得到一个所有匹配模式的列表，而不是得到match的对象（我们会在接下来更多的讨论match对象）。对我而言这更加简单。对示例字符串调用findall()方法我们得到：

1

2

3

						['dog', 'dog']

						>>> re.findall(r'cat', 'dog cat dog')

						['cat']

那么，先前search()和match()方法先前返回给我们的‘match'对象”到底是什么呢？

和只简单的返回字符串的匹配部分不同，search()和match()返回的“匹配对象”，实际上是一个关于匹配子串的包装类。

先前你看到我可以通过调用group()方法得到匹配的子串，（我们将在下一个部分看到，事实上匹配对象在处理分组问题时非常有用），但是匹配对象还包含了更多关于匹配子串的信息。

例如，match对象可以告诉我们匹配的内容在原始字符串中的开始和结束位置：

1

2

3

						>>> match = re.search(r'dog', 'dog cat dog')

						>>> match.start()

						>>> match.end()

知道这些信息有时候非常有用。

就像我之前提到的，匹配对象在处理分组时非常得心应手。

分组是对整个正则表达式的特定子串进行定位的能力。我们可以定义一个分组做为整个正则表达式的一部分，然后单独的对这部分对应匹配到的内容定位。

让我们来看一下它是怎么工作的：

1	`>>> contactInfo` `=` `'Doe, John: 555-1212'`

我刚才创建的字符串类似一个从某人的地址本里取出来的一个片段。我们可以通过这样一个正则表达式来匹配这一行：

1 2	`>>> re.search(r'\w+, \w+: \S+', contactInfo)` `<_sre.SRE_Match` `object` `at` `0xb74e1ad8<`

通过用圆括号来（字符‘('和‘)'）包围正则表达式的特定部分，我们可以对内容进行分组然后对这些子组做单独处理。

1	`>>> match` `=` `re.search(r'(\w+), (\w+): (\S+)', contactInfo)`

这些分组可以通过用分组对象的group()方法得到。它们可以通过其在正则表达式中从左到右出现的数字顺序来定位（从1开始）：

1

2

3

4

5

6

						>>> match.group(1)

						'Doe'

						>>> match.group(2)

						'John'

						>>> match.group(3)

						'555-1212'

组的序数从1开始的原因是因为第0个组被预留来存放所有匹配对象（我们在之前学习match()方法和search()方法到时候看到过）。

栏目列表