用python语言编写网络爬虫

当前位置:

首页 > 编程开发 > python爬虫 >

用python语言编写网络爬虫

本文主要用到python3自带的urllib模块编写轻量级的简单爬虫。至于怎么定位一个网页中具体元素的url可自行百度火狐浏览器的firebug插件或者谷歌浏览器的自带方法。

1、访问一个网址

re=urllib.request.urlopen('网址‘）

打开的也可以是个urllib.request.Request对象，后边也可以跟数据参数，当有传入数据时会自动变为POST请求；

2、urllib.request.Request(url,data=None,headers={})对象属性和方法

 1     full_url
 2     type
 3     host
 4     data
 5     selector
 6     method    
 7     get_method()
 8     add_header(key,val)
 9     add_unredirected_header(key,header)
10     has_header(header)
11     remove_header(header)
12     get_full_url(header)
13     set_proxy(host,type)
14     get_header(header_name,default=None)
15　　  header_items()

3、已连接对象的可用方法：

1 re.read()    　　　　　　　　 读取内容，想要将内容保存下来，需先新建一个相应格式的文件，再将读取到的内容写入到这个文件内即可；
2 re.geturl()    　　　　　　  可取得已打开对象的url地址；
3 re.info()    　　　　　　　　 可取得响应服务器的信息；
4 re.getcode()    　　　　　　 可取得响应状态码；
5 urllib.parse.urlencode()　　将一个存储post数据的字典转换成打开网页所需要的数据格式；

可用json.loads()将文本转换成键值对

可在传地址时将header以一个字典数据的形式传入，以隐藏自己的访问方式；也可用re.add_header('') 的方式进行追加；

4、当知道一个文件的url时可用此方法直接下载保存到本地

urllib.request.urlretrieve('http://wx1.sinaimg.cn/mw600/9bbc284bgy1ffkuafn4xtj20dw0jgh08.jpg','bc.jpg')

5、登录功能的实现(post)

（1）利用session保留登录状态

1 login_data = {
2             '_xsrf': getXSRF(baseurl),
3             'password': password,
4             'remember_me': 'true',
5             'email': email,
6 session = requests.session()
7 content = session.post(url, headers = headers_base, data = login_data)
8 s = session.get("http://www.zhihu.com", verify = False)
9 print s.text.encode('utf-8')

(2)利用cookie进行登录

 1 post = {
 2             'ua':self.ua,
 3             'TPL_checkcode':'',
 4             'CtrlVersion': '1,0,0,7',
 5             'TPL_password':'',
 6 }
 7 #将POST的数据进行编码转换
 8 postData = urllib.urlencode(post)
 9 cookie = cookielib.LWPCookieJar()
10 cookieHandler = urllib2.HTTPCookieProcessor(cookie)
11 opener = urllib2.build_opener(cookieHandler, urllib2.HTTPHandler)
12 #第一次登录获取验证码尝试，构建request
13 request = urllib2.Request(loginURL,postData,loginHeaders)
14 #得到第一次登录尝试的相应
15 response = self.opener.open(request)
16 #获取其中的内容
17 content = response.read().decode('gbk')
18

网站常用的编码方式有utf8,gbk,gb2132,gb18030等

6、代理的使用

同一个Ip设备在短时间内访问一个服务器次数过多会被服务器禁止访问，所以很多时候我们都需要用天代理来帮助我们解决这个问题。方法如下：

1 proxy_support = urllib.request.ProxyHandler({类型：代理ip和端口号})
2 opner = urllib.request.build_opener(proxy_suppoert)
3 urllib.request.install_opener(opener)  #可选安装
4 opener.open(url)        #或直接调用opener代理

注：如想实现更复杂的可使用更全面的scrapy框架。

附：自己写的一个验证网上代理的有效性的爬虫，此爬虫先从网站上获取代理的地址，然后使用这个代理来访问百度，验证是否能得到百度的网页，如能则将此代理地址保存。

			
import threading,time,pickle,re
import urllib.request

class ProxyCheck(threading.Thread):
   def __init__(self,proxylist):
       threading.Thread.__init__(self)
       self.proxylist = proxylist
       self.timeout = 5
       self.test_url = 'http://www.baidu.com'
       self.test_str = '11000002000001'
       self.checkedProxyList = []

   def checkProxy(self):
       cookies = urllib.request.HTTPCookieProcessor()
       for proxy in self.proxylist:
           proxy_handler = urllib.request.ProxyHandler({'http':r'%s://%s:%s' %(proxy[0],proxy[1],proxy[2])})
           opener = urllib.request.build_opener(cookies,proxy_handler)
           opener.addheaders = [('User-Agent', 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 '
                                               '(KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36')]
           urllib.request.install_opener(opener)
           t1 = time.time()
           try:
               req = urllib.request.urlopen(self.test_url,timeout=self.timeout)
               result = req.read().decode('utf-8')
               timeused = time.time() - t1
               pos = result.find(self.test_str)
               if pos > 1:
                   self.checkedProxyList.append((proxy[0],proxy[1],proxy[2],proxy[3],timeused))
                   print((proxy[0],proxy[1],proxy[2],proxy[3],timeused))
               else:
                   continue
           except:
               continue
   # def sort(self):
   #     sorted(self.checkedProxyList,cmp=lambda x,y:cmp(x[4],y[4]))
   def save(self,filename):
       with open("%s.txt"%filename,'w') as f:
           for proxy in self.checkedProxyList:
               f.write("{}\t{}:{}\t{}\t{}\n".format(*proxy))
       with open("%s.pickle"%filename,'wb') as fb:
           pickle.dump(self.checkedProxyList,fb)

   def run(self):
       self.checkProxy()
       self.save("checked-50")


class xiciProxy:
   def __init__(self):
       self.alllist = []
   def grep(self,url):
       # req = urllib.request.Request(url)
       # req.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 '
       #                             '(KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36')


       result1 = urllib.request.urlopen(req)
       result2 = result1.read().decode('utf-8')

       regex = r"<td>(\d+.\d+.\d+.\d+)</td>\n.*?" \
               r"<td>(\d+)</td>\n.*?" \
               r"\n.*?" \
               r"<a href=.*?>(.*?)</a>\n.*?" \
               r"\n.*?" \
               r"\n.*?" \
               r"<td>(HTTPS?)</td>"
       get = re.findall(regex,result2)
       proxylist = []
       for i in get:
           proxylist.append((i[3],i[0],i[1],i[2]))
       return proxylist
   def save(self,filename):
       with open("%s.txt"%filename,'w') as f:
           for proxy in self.alllist:
               f.write("{}\t{}:{}\t{}\n".format(*proxy))
       with open("%s.pickle"%filename,'wb') as fb:
           pickle.dump(self.alllist,fb)
   def run(self):
       for i in range(51,1951):
           url = "http://www.xicidaili.com/nn/{}".format(i)
           print(url)
           proxylist = self.grep(url)
           self.alllist += proxylist
           if i % 50 == 0:
               self.save("xiciproxy-{}".format(i))
               self.alllist = []

with open("xiciproxy-50.pickle","rb") as fb:
   proxylist = pickle.load(fb)
ProxyCheck(proxylist).run()
			

出处：https://www.cnblogs.com/aland-1415/p/7347739.html

栏目列表