一、Python爬虫-认识爬虫

当前位置:

首页 > temp > 简明python教程 >

一、Python爬虫-认识爬虫

爬虫是什么：

　　　　爬取互联网上的信息

　　　　数据挖掘->数据清洗（得到有效的信息）

　　爬虫分类：

　　　　通用爬虫：是搜索引擎抓取系统（百度，谷歌）的重要组成，主要目的是将互联网上的网页下载到本地，形成一个互联网内容的镜像备份

　　　　抓取网页 -> 数据存储 -> 预处理 -> 提供检索，网站排名

　　　　聚焦爬虫：是"面向特定主体需求"的一种网络爬虫程序，它与通用搜索引擎爬虫的区别在于：聚焦爬虫在实施网页抓取时会对内容进行处理筛选，尽量保证只抓取与需求相关的网页信息

1|1请求和响应

　　前端：网页展现　　　　　　　　

　　中间层：数据处理　　　　　　　

　　数据库：数据存储　　　　　　

　　服务器（响应）客户端（请求）　　　　　　　　　

1|2URL

　　（Uniform/Universal Resource Locator）：统一资源定位符，是用于完整地描述Internet上网页和其他资源的地址的一种标识方法

　　基本格式：scheme://host[:port#]/path/.../[?query-string][#anchor]

　　scheme：协议

　　host：服务器的IP地址或者域名

　　port#：服务器的端口（如果是走协议默认端口，缺省端口80）

　　query-string：参数，发送给http服务器的数据

　　anchor：锚（跳转到网页的指定锚点位置）

1|3GET请求和POST请求

　　Get是从服务器上获取数据，Post是向服务器传输数据，Post更加安全

　　Get请求：参数显示都显示在浏览器网址上，HTTP服务器根据该请求所包含的URL中的参数来产生响应内容，即"Get"请求的参数是URL的一部分

　　Post请求：参数在请求体当中，消息长度没有限制而且以隐式的方式进行发送，通常用来向HTTP服务器提交量比较大的数据，请求参数包含在"Content-Type"消息头里，指明该消息体的媒体类型和编码

1|4浏览器开发者工具

　　按下F12，进入开发者模式；

__EOF__

本文作者：Hecarim
本文链接：https://www.cnblogs.com/Just-a-calm-programmer/p/12739386.html
关于博主：评论和私信会在第一时间回复。或者直接私信我。
版权声明：本博客所有文章除特别声明外，均采用 BY-NC-SA 许可协议。转载请注明出处！

栏目列表