Request爬取各类网站的数据（实例爬取）

当前位置:

首页 > temp > python入门教程 >

Request爬取各类网站的数据（实例爬取）

1. 先上代码

			
# !/usr/bin/env python
# ! _*_ coding:utf-8 _*_
# @TIME   : 2020/10/12  13:29
# @Author : Noob
# @File   : bases.py

import requests
from bs4 import BeautifulSoup
import re
import xlwt
import xlrd

class Bases:

   fo = open('data.txt', 'r', encoding='utf-8')
   lines = fo.readlines()

   # 说明书读取
   def readExplain(self):

       x = input("是否读取说明（y or n）：")
       if x == 'y':
           ro = open('explain.txt', 'r+', encoding='utf-8')
           strs = ro.read()
           print(strs)
           ro.close()
       else:
           pass

   # 动态url
   def getUrl(self, keywords, starts):

       lines = self.lines
       baseurl = lines[15].strip()
       key = lines[17].strip()
       fw = lines[23].strip()
       bw = lines[25].strip()

       if '.' in fw or bw:
           fwf = fw.replace('.', '\.')
           bwf = bw.replace('.', '\.')
       else:
           fwf = fw
           bwf = bw
       if fw != '':
           url = re.sub(fwf + '(.+?)' + bwf, fw + str(starts) + bw, baseurl)
           url = url.replace(key, keywords)
       else:
           url = baseurl.replace(key, keywords)
       if '$' in url:
           url = url[0: -1]
       print('当前url是：%s' % url)
       return url

   # 请求头
   def getHeader(self):

       lines = self.lines
       header = {
           'accept': lines[5].strip(),
           'accept-encoding': lines[7].strip(),
           'accept-language': lines[9].strip(),
           'cache-control': lines[11].strip(),
           'Connection': lines[13].strip(),
           'Upgrade-Insecure-Requests': lines[3].strip(),
           'User-Agent': lines[1].strip()
       }
       return header

   # 封装请求
   def getContent(self, key='学霸', start=0):

       url = self.getUrl(key, start)
       try:
           assert ('http' in url)
       except:
           return 'url有问题，请重来！！！'
       else:
           res = requests.get(url, headers=self.getHeader())
           if res.status_code == 200:
                   return res
           else:
               return '请求失败，状态码为：%d' % res.status_code, 'error'
       finally:
           # print('这是一个检查url是否正确的块')
           pass

   # 获取完整文本
   def getContents(self, key):

       lines = self.lines
       try:
           offset = int(lines[19])
           j = int(lines[21].strip())
       except ValueError as msg:
           print('输入数据有错，请返回检查！！！', msg)
       else:
           words = lines[27].strip()
           resText = ''
           while 1:
               res = self.getContent(key, j)

               res.encoding = 'utf-8'  # 中文乱码的时候

               if type(res) == str:
                   print(res)
                   break
               if type(res) == tuple:
                   print(res)
                   break
               if res.status_code == 400:
                   break
               if len(res.text) < 100:
                   break
               if words not in res.text:
                   break
               if str(j) not in res.url:  # 当没有页码或者滑动加载的时候,并不准确
                   resText = resText + res.text
                   break
               resText = resText + res.text
               j = j + offset
           resText = resText.replace('<!DOCTYPE html>', '')
           resText = BeautifulSoup(resText, features='html.parser')
           eo = open('export.txt', 'w', encoding='utf-8')
           eo.write(str(resText))
           eo.close()
           return resText

   # 数据过滤
   def getFilter(self, key):

       lines = self.lines
       resText = str(self.getContents(key))

       counts = int(lines[29].strip())

       j = 31  # 匹配规则开始下标
       datas = []  # 所有匹配数据列表名

       for i in range(counts):
           pattern = lines[j].strip()
           datas.append(re.compile(pattern).findall(resText))
           j = j + 2

       # 数据爬取到TXT
       # ao = open('abc.txt', 'a', encoding='utf-8')
       #
       # ao.write(ns[0] + '\t' + ns[1] + '\t' + ns[2] + '\t' + ns[3] + '\n') # 项目名制成表头
       #
       # for i in range(len(datas[0])):
       #     k = ''
       #     for j in range(len(datas)):
       #         k = k + datas[j][i] + '\t'
       #     ao.write(k + '\n')
       # ao.close()
       return datas


   # 从Excel中读取搜索数据
   def readExcel(self):

       xd = xlrd.open_workbook('ok.xlsx')
       sn = xd.sheet_by_index(0)
       coms = []
       j = 1
       while 1:
           com = sn.cell_value(j, 0)
           if com == '':
               break
           coms.append(com)
           j = j + 1
       return coms

   # 数据写到Excel
   def writeExcel(self):

       data = self.readExcel()  # 二维数组
       datas = []  # 三维数组datas[a][b][c]
       for i in range(len(data)):
           data[i] = self.getFilter(data[i])
           datas.append(data[i])

       print(datas)

       # 创建表
       xt = xlwt.Workbook(encoding='gbk')
       sn = xt.add_sheet('what')

       # 制表头
       lines = self.lines
       # 找到匹配开始的元素索引和项目名
       j = 0
       for i in lines:
           if '正则匹配规则' in i:
               n = re.compile(r'#(.+?)#').findall(i.strip())
               if len(n) > 0:
                   sn.write(0, j, n[0])  # 第几行第几列值是什么
                   j = j + 1

           # 单元格宽度:0的占位符是256，那么20个0就是256*20
           if '单元格宽度' in i:
               i = lines[lines.index(i) + 1]
               i = i.split('*')  # 字符串切割成数组
               for k in range(len(i)):
                   sn.col(k).width = 256*int(i[k])

       # 写入数据
       count = 1  # 计行
       for i in datas:
           for j in range(len(i[0])):  # 每个搜索值的数量
               for k in range(len(i)): # 搜索项数量
                   sn.write(count, k, i[k][j])  # 这里不要写错了
               count = count + 1

       return xt.save('ok.xls')  # 保存格式必须是.xls，否则失败

   # 运行
   def main(self):
       print('运行开始abc')
       self.writeExcel()

   fo.close()

if __name__ == '__main__':
   bs = Bases()
   bs.main()
			

2. 网站及其搜索项在这个txt中配置（后面有一个explain的文档有详细说明）

			
----请输入User-Agent：
Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 UBrowser/6.2.4098.3 Safari/537.36
----请输入Upgrade-Insecure-Requests：
1
----请输入accept：
text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8
----请输入accept-encoding：
gzip, deflate, br
----请输入accept-language：
zh-CN,zh;q=0.8
----请输入cache-control：
max-age=0
----请输入Connection:
keep-alive
----请输入搜索一个数据后的完整网址：
http://www.biquku.la/modules/article/search.php?searchkey=%E5%AD%A6%E9%9C%B8
----请输入网址中的关键词：
%E5%AD%A6%E9%9C%B8
----请输入页码差或滑动偏移量（没有就填0）：
0
----请输入默认开始页数或者第一条数据（没有就填0）：
0
----请输入偏移量前面的字符（没有页码就不填）：

----请输入偏移量后面的字符（没有页码不填，如果有页码，但是页码后面没有字符输入$）：

----请输入需要中断请求的连续字符（可以为空，也有可能导致死循环，比如前程无忧，会无限发送请求，根据网站来）：

----请输入匹配项目数量
4
----请输入第一条要输出内容#文章名称#的正则匹配规则
/\" target=\"_blank\">(.+?)</a>
----请输入第二条要输出内容#最新章节#的正则匹配规则
\.html\" target=\"_blank\">(.+?)</a></span>
----请输入第三条要输出内容#作者#的正则匹配规则
<td class=\"nowrap\">(.+?)</td>
----请输入第四条要输出内容#更新日期#的正则匹配规则
<td>(.+?)</td>
----请输入第五条要输出内容##的正则匹配规则

----请输入单元格宽度（大概字符个数）：
30*30*20*20
			

3. 关键字数据写在Excel中：ok.xlsx

4. 输出的有三个文本

　　--export.txt：输出整个文档，方便写正则规则

　　--ok.xls：输出爬取的数据

　　--abc.txt：输出爬取数据，代码被注释了，看自己需要

5. 解释data.txt的填写

			
----------------------------------------------------------------------------------------------
----------------------------------------------------------------------------------------------
   在data.txt中修改数据进行网页爬取
       1. 当没有页码或偏移量的时候，19-28行问题可忽略不写
       2. 匹配项目数量这个要写，这里写多少，下面就填多少个匹配规则
       3. 匹配项目前的问题不要改动位置，有些地方索引写死了，有需要再改代码
       4. 请求中断连续字符，即发送的请求返回的文本中不存在的内容
           --在前程无忧中，如果不输入中断字符，会无线循环，不包含搜索数据也会继续下去
           --在前程无忧我选择company_name作为中断字符串，包含搜索数据的会请求，不包含的就中断
----------------------------------------------------------------------------------------------
----------------------------------------------------------------------------------------------
   判断偏移量和页数的问题的方式
       1. 页码：先翻页，查看两次链接有什么不同的地方
       2. 滑动加载：打开network，滑动加载页面，在这里取链接，查看一次加载的变动数据量
       3. 翻页offset：一般相差1
       4. 滑动offset：滑动后的数值减去滑动前的数值
           --比如领英的滑动前的start=0，滑动后start=25，那么offset=25
----------------------------------------------------------------------------------------------
----------------------------------------------------------------------------------------------
   注意问题：
       1. fw和bw的符号为英文格式
       2. offset后面如果没有字符，bw输入英文的$
       3. fw和bw的值需两个字符以上，尽可能长的不会和其他字符或串有重复
----------------------------------------------------------------------------------------------
----------------------------------------------------------------------------------------------
   使用方式：举例子
       1. 前程无忧
           --完整网址：https://search.51job.com/list/000000,000000,0000,00,9,99,%25E8%2595%25BE%25E4%25B8%259D,1,1.html
           --关键字：%25E8%2595%25BE%25E4%25B8%259D
           --偏移量：1
           --起始页：1
           --页码或偏移数前的字符:,1,
           --页码或偏移数前的字符:.html
       2. 领英
           --完整网址：https://www.linkedin.com/jobs-guest/jobs/api/seeMoreJobPostings/search?keywords=%E8%A5%BF%E9%97%A8%E5%AD%90&location=%E4%B8%AD%E5%9B%BD&geoId=&trk=public_jobs_jobs-search-bar_search-submit&start=25
           --关键字：%E8%A5%BF%E9%97%A8%E5%AD%90
           --偏移量：25
           --起始数：0
           --页码或偏移数前的字符：rt=
           --页码或偏移数后的字符：$
       3. 笔趣阁
           --http://www.biquku.la/modules/article/search.php?searchkey=%E5%AD%A6%E9%9C%B8
           --%E5%AD%A6%E9%9C%B8
           --没有偏移量，填0
           --起始数据不存在：填0
           --不填
           --不填
----------------------------------------------------------------------------------------------
----------------------------------------------------------------------------------------------
			

6. 用到的知识点（没写全）

			
-----------------------------------------------------------
                   知识点
-----------------------------------------------------------
# 网页数据爬取
#   1. request库
#   2. bs4 > BeautifulSoup库
#   3. 写到数据筛选的时候发现有些网站不适合用bs4，比如前程无忧，所以这里使用re库
# 多线程
#   1.
# 数据读取Excel（看需要，自己写着玩的话，我更喜欢TXT，没得选的话，还有其他各种各样的文件格式有的学）
#   1. xlrd库
# 数据写入Excel
#   1. xlwt库
#   2. 相关知识链接：https://www.cnblogs.com/zhangyang123/p/10784741.html
#   3. 使用这个库不能进行数据追加修改，每次都覆盖，想要修改追加的话再使用库xlutils
#   4. 相关知识链接：https://blog.csdn.net/u013250071/article/details/81911434
# txt读取写入
#   1. 打开文件：fo = open(filename.txt, mode, encoding)
#   2. 读整个文件：fo.read()
#   3. 按字符读：fo.read(counts)
#   4. 按行读：fo.readlines() ==> 这是一个数组，每一行是一个元素
#   5. 去行末尾的隐藏\n：line.strip()
#   6. 注意模式mode，如果是追加写入mode用a，如果覆盖写入用w或w+
#   7. 相关知识链接：https://www.cnblogs.com/xuxn/archive/2011/07/27/read-a-file-with-python.html
# 变量动态命名
#   1. 这里要注意是全局还是局部的命名：exec和locals是全局的，globals是局部的
#   2. 调用变量的方式也可以学一学，本来打算用这个命名方式的，后来发现不用也行
#   3. 相关知识链接：https://www.runoob.com/w3cnote/python-dynamic-var.html
			

——以后有空再修改代码做成有界面的形式，txt填写数据不是很方便，只进行小范围的测试

出处：https://www.cnblogs.com/noobzeng/p/13811365.html

栏目列表