当前位置:
首页 > temp > 简明python教程 >
-
Python爬虫(学习准备)
编码格式的认识:
- 字符:各种文字和符号的统称
- 字符集:多个字符的集合
- 字符集包括:ASCII字符集,GB2312字符集,GB18030,Unicode字符集等
- 1个字符ASCII编码占1个字节,用Unicode编码占2个字节
- UTF-8是Unicode的实习方式之一,是一种变长的编码方式,可以是1,2,3个字节等
在Python中字符串分为两种类型:
- bytes:二进制,互联网上数据都是以二进制传输
- str:unicode的呈现方式
str与bytes的转换:
encode() #str->bytes
decode() #bytes->str
1
2
3
4
5
6
7
|
a = '华南理工大学广州学院' print ( type (a)) #<class 'str'> b = a.encode() #参数不填默认utf-8编码 print (b) print ( type (b)) #<class 'bytes'> a = b.decode( 'utf-8' ) print (a) #华南理工大学广州学院 |
cookie和session区别:
- cookie数据存放在客户的浏览器上,session数据放在服务器上。
- cookie不是很安全,别人可以分析存放在本地的cookie并进行cookie欺骗
- session会在一定时间内保存在服务器。当访问增多,会比较占服务器性能
- 单个cookie保存的数据不能超过4k,很多浏览器都限制一个站点最多保存20个cookie
Http和Https:
Http
- 超文本传输协议
- 默认端口号:80
Https
- Http + ssl(安全套接字层)
- 默认端口号:443
Https比http更安全,但是性能更低(耗时更长)
Url的形式:
http请求格式:
http常见请求头:
常见响应状态码:
- 200:成功
- 302:转移至新的url
- 307:转移至新的url
- 404:not found
- 500:服务器内部错误
爬虫的分类:
- 通用爬虫:通常指搜索引擎的爬虫
- 聚焦爬虫:针对特定网站的爬虫
通用爬虫与聚焦爬虫的流程:
Robots协议:
网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取
浏览器发送Http请求的过程:
浏览器渲染出来的页面与爬虫请求的页面不一样
栏目列表
最新更新
nodejs爬虫
Python正则表达式完全指南
爬取豆瓣Top250图书数据
shp 地图文件批量添加字段
爬虫小试牛刀(爬取学校通知公告)
【python基础】函数-初识函数
【python基础】函数-返回值
HTTP请求:requests模块基础使用必知必会
Python初学者友好丨详解参数传递类型
如何有效管理爬虫流量?
2个场景实例讲解GaussDB(DWS)基表统计信息估
常用的 SQL Server 关键字及其含义
动手分析SQL Server中的事务中使用的锁
openGauss内核分析:SQL by pass & 经典执行
一招教你如何高效批量导入与更新数据
天天写SQL,这些神奇的特性你知道吗?
openGauss内核分析:执行计划生成
[IM002]Navicat ODBC驱动器管理器 未发现数据
初入Sql Server 之 存储过程的简单使用
SQL Server -- 解决存储过程传入参数作为s
关于JS定时器的整理
JS中使用Promise.all控制所有的异步请求都完
js中字符串的方法
import-local执行流程与node模块路径解析流程
检测数据类型的四种方法
js中数组的方法,32种方法
前端操作方法
数据类型
window.localStorage.setItem 和 localStorage.setIte
如何完美解决前端数字计算精度丢失与数