《爬虫学习》（五）（爬虫实战之爬取天气信息）(2)

当前位置:

首页 > Python基础教程 >

《爬虫学习》（五）（爬虫实战之爬取天气信息）(2)

parse_data函数主要用于爬取以及解析数据

headers可以在网页之中查找

易错点：当使用requests.get获取到网页之后，一般可能使用text方法进行数据获取，但是尝试之后数据产生了乱码，因为requests.get方法获取再用text解码时候默认ISO-8859-1解码，

　　　　因此使用content方法并指定decode('utf-8')进行解码

数据解析我使用的是bs4库，也可以用lxml库，但是感觉没有bs4方便，解析方式使用html5lib，对于html数据解析更具有容错性和开放性

2.爬取网页解析：

		
								# 爬取数据

								    cons = soup.find('div', attrs={'class':'conMidtab'})

								    tables = cons.find_all('table')

								    for table in tables:

								        trs = table.find_all('tr')[2:]

								        for index,tr in enumerate(trs):

								            if index == 0:

								                tds = tr.find_all('td')[1]

								                qiwen = tr.find_all('td')[4]

								            else:

								                tds = tr.find_all('td')[0]

								                qiwen = tr.find_all('td')[3]

								            city = list(tds.stripped_strings)[0]

								            wendu = list(qiwen.stripped_strings)[0]

								            data.append({'城市':city, '最高气温':wendu})

栏目列表