如何利用CSS选择器抓取京东网商品信息

当前位置:

首页 > temp > 简明python教程 >

如何利用CSS选择器抓取京东网商品信息

前几天小编分别利用Python正则表达式、BeautifulSoup、Xpath分别爬取了京东网商品信息，今天小编利用CSS选择器来为大家展示一下如何实现京东商品信息的精准匹配~~

如何利用CSS选择器抓取京东网商品信息

CSS选择器

目前，除了官方文档之外，市面上及网络详细介绍BeautifulSoup使用的技术书籍和博客软文并不多，而在这仅有的资料中介绍CSS选择器的少之又少。在网络爬虫的页面解析中，CCS选择器实际上是一把效率甚高的利器。虽然资料不多，但官方文档却十分详细，然而美中不足的是需要一定的基础才能看懂，而且没有小而精的演示实例。

如何利用CSS选择器抓取京东网商品信息

京东商品图

首先进入京东网，输入自己想要查询的商品，向服务器发送网页请求。在这里小编仍以关键词“狗粮”作为搜索对象，之后得到后面这一串网址：
https://search.jd.com/Search?keyword=%E7%8B%97%E7%B2%AE&enc=utf-8，其中参数的意思就是我们输入的keyword，在本例中该参数代表“狗粮”，具体详情可以参考Python大神用正则表达式教你搞定京东商品信息。所以，只要输入keyword这个参数之后，将其进行编码，就可以获取到目标URL。之后请求网页，得到响应，尔后利用CSS选择器进行下一步的数据采集。

商品信息在京东官网上的部分网页源码如下图所示：

如何利用CSS选择器抓取京东网商品信息