VB.net 2010 视频教程 VB.net 2010 视频教程 python基础视频教程
SQL Server 2008 视频教程 c#入门经典教程 Visual Basic从门到精通视频教程
当前位置:
首页 > temp > 简明python教程 >
  • 爬虫(3)

 

二、用requests库的get()函数访问百度网站,打印返回状态,text()内容,计算text()和content属性所返回的页面内容的长度:

1
2
3
4
5
6
7
8
9
10
11
12
import requests
def getHTMLText(url):
    try:
        for in range(0,20):                  
            = requests.get(url, timeout=30)
        r.raise_for_status()
        r.encoding = 'utf-8'
        return r.status_code,r.text,r.content,len(r.text),len(r.content)
    except:
        return ""
url = 'http://www.baidu.com.cn/'
print(getHTMLText(url))

结果为:

 

 

三、制作一个简单的html页面:a、获取body标签的内容;b、获取id为first的标签对象;c、获取并打印html页面中的中文字符

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
<!DOCTYPE html>
<html>
<head>
<meta charset="utf-8">
<title>菜鸟教程(runoob.com)</title>
</head>
<body>
    
    <b>第一个html页面————来自学号2019310143016</b><br><br>
 
    <p id="first">制作者的基本信息:</p>
</body>
    <table border="1">
 
    <tr>
        <td>班级</td>
        <td>姓名</td>
        <td>年级</td>
    </tr>
    <tr>
        <td>信计1班</td>
        <td>纯牛奶</td>
        <td>19级</td>
    </tr>
</table>
</html>

相关教程