爬虫(3)

当前位置:

首页 > temp > 简明python教程 >

爬虫(3)

二、用requests库的get()函数访问百度网站，打印返回状态，text（）内容，计算text()和content属性所返回的页面内容的长度：

			
									import requests

									def getHTMLText(url):

									    try:

									        for i in range(0,20):                  

									            r = requests.get(url, timeout=30)

									        r.raise_for_status()

									        r.encoding = 'utf-8'

									        return r.status_code,r.text,r.content,len(r.text),len(r.content)

									    except:

									        return ""

									url = 'http://www.baidu.com.cn/'

									print(getHTMLText(url))

结果为：

三、制作一个简单的html页面：a、获取body标签的内容；b、获取id为first的标签对象；c、获取并打印html页面中的中文字符

			
									<!DOCTYPE html>

									<html>

									<head>

									<meta charset="utf-8">

									<title>菜鸟教程（runoob.com）</title>

									</head>

									<body>

									    <b>第一个html页面————来自学号2019310143016</b><br><br>

									    <p id="first">制作者的基本信息：</p>

									</body>

									    <table border="1">

									    <tr>

									        <td>班级</td>

									        <td>姓名</td>

									        <td>年级</td>

									    </tr>

									    <tr>

									        <td>信计1班</td>

									        <td>纯牛奶</td>

									        <td>19级</td>

									    </tr>

									</table>

									</html>

栏目列表