Python爬虫（学习准备）

VB.net 2010 视频教程

VB.net 2010 视频教程

python基础视频教程

SQL Server 2008 视频教程

c#入门经典教程

Visual Basic从门到精通视频教程

当前位置:

首页 > temp > 简明python教程 >

Python爬虫（学习准备）

编码格式的认识：

字符：各种文字和符号的统称
字符集：多个字符的集合
字符集包括：ASCII字符集，GB2312字符集，GB18030，Unicode字符集等
1个字符ASCII编码占1个字节，用Unicode编码占2个字节
UTF-8是Unicode的实习方式之一，是一种变长的编码方式，可以是1,2,3个字节等

在Python中字符串分为两种类型：

bytes：二进制，互联网上数据都是以二进制传输
str：unicode的呈现方式

str与bytes的转换：

encode（）　　#str->bytes

decode（）　　#bytes->str

			
									a = '华南理工大学广州学院'

									print(type(a))　　#<class 'str'>

									b = a.encode()　　#参数不填默认utf-8编码

									print(b)　　

									print(type(b))　　#<class 'bytes'>

									a = b.decode('utf-8')

									print(a)　　#华南理工大学广州学院

cookie和session区别：

cookie数据存放在客户的浏览器上，session数据放在服务器上。
cookie不是很安全，别人可以分析存放在本地的cookie并进行cookie欺骗
session会在一定时间内保存在服务器。当访问增多，会比较占服务器性能
单个cookie保存的数据不能超过4k，很多浏览器都限制一个站点最多保存20个cookie

Http和Https：

Http

超文本传输协议
默认端口号：80

Https

Http + ssl（安全套接字层）
默认端口号：443

Https比http更安全，但是性能更低（耗时更长）

Url的形式：

http请求格式：

http常见请求头：

常见响应状态码：

200：成功
302：转移至新的url
307：转移至新的url
404：not found
500：服务器内部错误

爬虫的分类：

通用爬虫：通常指搜索引擎的爬虫
聚焦爬虫：针对特定网站的爬虫

通用爬虫与聚焦爬虫的流程：

Robots协议：

网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取

浏览器发送Http请求的过程：

浏览器渲染出来的页面与爬虫请求的页面不一样

栏目列表

JavaScript+JQuery从入门到精通视频教程

VB.net 2010 视频教程

VB.net 2010 视频教程

Java视频教程

VB.net 2010 视频教程

最新更新

Python正则表达式完全指南

爬取豆瓣Top250图书数据

shp 地图文件批量添加字段

爬虫小试牛刀（爬取学校通知公告）

【python基础】函数-初识函数

【python基础】函数-返回值

HTTP请求：requests模块基础使用必知必会

Python初学者友好丨详解参数传递类型

如何有效管理爬虫流量？

2个场景实例讲解GaussDB(DWS)基表统计信息估

常用的 SQL Server 关键字及其含义

动手分析SQL Server中的事务中使用的锁

openGauss内核分析：SQL by pass & 经典执行

一招教你如何高效批量导入与更新数据

天天写SQL，这些神奇的特性你知道吗？

openGauss内核分析：执行计划生成

[IM002]Navicat ODBC驱动器管理器未发现数据

初入Sql Server 之存储过程的简单使用

SQL Server -- 解决存储过程传入参数作为s

关于JS定时器的整理

JS中使用Promise.all控制所有的异步请求都完

js中字符串的方法

import-local执行流程与node模块路径解析流程

检测数据类型的四种方法

js中数组的方法,32种方法

前端操作方法

window.localStorage.setItem 和 localStorage.setIte

如何完美解决前端数字计算精度丢失与数