python urllib2详解及实例(2)

当前位置:

首页 > Python基础教程 >

python urllib2详解及实例(2)

Headers

我们将在这里讨论特定的HTTP头，来说明怎样添加headers到你的HTTP请求。

有一些站点不喜欢被程序（非人为访问）访问，或者发送不同版本的内容到不同的浏览器。默认的urllib2把自己作为“Python-urllib/x.y”(x和y是Python主版本和次版本号,例如Python-urllib/2.5)，这个身份可能会让站点迷惑，或者干脆不工作。浏览器确认自己身份是通过User-Agent头，当你创建了一个请求对象，你可以给他一个包含头数据的字典。下面的例子发送跟上面一样的内容，但把自身

模拟成Internet Explorer。

						import urllib 

						import urllib2 

						url = 'http://www.pythontab.com'

						user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'

						values = {'name' : 'Michael Foord', 

						          'location' : 'pythontab', 

						          'language' : 'Python' } 

						headers = { 'User-Agent' : user_agent } 

						data = urllib.urlencode(values) 

						req = urllib2.Request(url, data, headers) 

						response = urllib2.urlopen(req) 

						the_page = response.read()

response应答对象同样有两个很有用的方法。看下面的节info and geturl，我们将看到当发生错误时会发生什么。

Handle Exceptions处理异常

当urlopen不能够处理一个response时，产生urlError（不过通常的Python APIs异常如ValueError,TypeError等也会同时产生）。

HTTPError是urlError的子类，通常在特定HTTP URLs中产生。

URLError

通常，URLError在没有网络连接(没有路由到特定服务器),或者服务器不存在的情况下产生。这种情况下，异常同样会带有"reason"属性，它是一个tuple，包含了一个错误号和一个错误信息。

例如

1

2

3

4

5

						>>> req = urllib2.Request('http://www.pythontab.com') 

						>>> try: urllib2.urlopen(req) 

						>>> except URLError, e: 

						>>>    print e.reason 

						>>>

(4, 'getaddrinfo failed')

HTTPError

服务器上每一个HTTP 应答对象response包含一个数字"状态码"。有时状态码指出服务器无法完成请求。默认的处理器会为你处理一部分这种应答(例如:假如response是一个"重定向"，需要客户端从别的地址获取文档，urllib2将为你处理)。其他不能处理的，urlopen会产生一个HTTPError。典型的错误包含"404"(页面无法找到)，"403"(请求禁止)，和"401"(带验证请求)。

请看RFC 2616 第十节有所有的HTTP错误码

HTTPError实例产生后会有一个整型'code'属性，是服务器发送的相关错误号。

Error Codes错误码

因为默认的处理器处理了重定向(300以外号码)，并且100-299范围的号码指示成功，所以你只能看到400-599的错误号码。

BaseHTTPServer.BaseHTTPRequestHandler.response是一个很有用的应答号码字典，显示了RFC 2616使用的所有的应答号。这里为了方便重新展示该字典。

当一个错误号产生后，服务器返回一个HTTP错误号，和一个错误页面。你可以使用HTTPError实例作为页面返回的应答对象response。这表示和错误属性一样，它同样包含了read,geturl,和info方法。

1

2

3

4

5

6

7

						>>> req = urllib2.Request('http://www.python.org/fish.html') 

						>>> try: 

						>>>     urllib2.urlopen(req) 

						>>> except URLError, e: 

						>>>     print e.code 

						>>>     print e.read() 

						>>>

栏目列表