-
【Python爬虫】:爬取(谷歌/百度/搜狗)的搜索结果
步骤如下:
1.首先导入爬虫的package:requests
2.使用UA 伪装进行反反爬虫,将爬虫伪装成一个浏览器进行上网
3.通过寻找,找到到谷歌搜索时请求的url。
假设我们在谷歌浏览器当中输入:不知道
我们可以得到请求结果的网址如下:
也就是:
https://www.google.com/search?q=%E4%B8%8D%E7%9F%A5%E9%81%93&rlz=1C1CHWL_zh-CNAU918AU918&oq=%E4%B8%8D%E7%9F%A5%E9%81%93&aqs=chrome.0.69i59l2.885j0j1&sourceid=chrome&ie=UTF-
在这个网址当中,问号“?”后面的则是这次请求的参数,将问号前面的网址拿下来,放到代码里。后面的参数我们可以代码进行人为的定义,这样我们就可以使用爬虫爬取任意搜索结果的html网页了。
剪辑后的url如下:
url='https://www.google.com/search'
?问号后面的“q=不知道”可以作为我们传入给谷歌搜索引擎的参数,因此可以编写代码:
param={ 'q':kw }
这样程序就可以自己知道搜索引擎后面跟随的参数是什么了。我们就可以传递进一个我们想要的kw进去即可。
完整的程序如下:
import requests headers={ 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83 Safari/537.36' } url='https://www.google.com/search' #处理url所携带的参数,将其封装到字典当中 kw=input("enter a word:") param={ 'q':kw } #对指定url发起的请求url是携带参数的 response=requests.get(url=url,params=param,headers=headers) page_text=response.text print(page_text) file_name=kw+'.html' with open(file_name,'w',encoding='utf-8') as fp: fp.write(page_text)
最新更新
nodejs爬虫
Python正则表达式完全指南
爬取豆瓣Top250图书数据
shp 地图文件批量添加字段
爬虫小试牛刀(爬取学校通知公告)
【python基础】函数-初识函数
【python基础】函数-返回值
HTTP请求:requests模块基础使用必知必会
Python初学者友好丨详解参数传递类型
如何有效管理爬虫流量?
2个场景实例讲解GaussDB(DWS)基表统计信息估
常用的 SQL Server 关键字及其含义
动手分析SQL Server中的事务中使用的锁
openGauss内核分析:SQL by pass & 经典执行
一招教你如何高效批量导入与更新数据
天天写SQL,这些神奇的特性你知道吗?
openGauss内核分析:执行计划生成
[IM002]Navicat ODBC驱动器管理器 未发现数据
初入Sql Server 之 存储过程的简单使用
SQL Server -- 解决存储过程传入参数作为s
JavaScript判断两个数组相等的四类方法
js如何操作video标签
React实战--利用甘特图和看板,强化Paas平
【记录】正则替换的偏方
前端下载 Blob 类型整理
抽象语法树AST必知必会
关于JS定时器的整理
JS中使用Promise.all控制所有的异步请求都完
js中字符串的方法
import-local执行流程与node模块路径解析流程