-
python爬虫之Python3爬取美团美食板块商家数据
试听地址 https://www.xin3721.com/eschool/pythonxin3721/
本文转载至知乎ID:Charles(白露未晞)知乎个人专栏
下载W3Cschool手机App,0基础随时随地学编程>>戳此了解
导语
利用Python简单爬取美团美食板块商家数据。。。
其实一开始我是想把美团的所有商家信息爬下来的,这样就可以美其名曰百万数据了。。。
然而相信很多爬过美团的朋友都发现了。。。
如果不进行一些小操作。。。
爬不了几页代码就GG了。。。
后来想想我要这么多数据也没什么用。。。
唯一对我有用的。。。
大概就是美食板块了。。。
以后用到其他板块的时候再另外爬就好了。。。
OK,Let's go!
相关文件
百度网盘下载链接: https://pan.baidu.com/s/19FPe8OFVwVa_LvuHjYnB9w
密码: 3pbr
主要思路
目的:
根据输入的城市名,爬取该城市美团美食板块所有商家的数据。数据包括:
店名、评分、评论数量、均价、地址,
并将这些数据存入Excel中。
最后尝试对爬取到的数据做一个简单的分析。
克服反爬虫:
爬取每页数据后,随机停止一段时间后再爬下一页;
每页使用不同的cookie值。
具体原理:
没用抓包软件。。。
Chrome打开后看了下xhr。。。
发现直接有接口可以用。。。
给个cookie就能返回所需的数据了。。。
后来随便点了几个其他板块的网页。。。
发现也差不多是这个套路。。。
详细的实现过程见源代码。
开发工具
Python版本:3.5.4
相关模块:requests模块;win_unicode_console模块;openpyxl模块;以及一些Python自带的模块。
环境搭建
安装Python并添加到环境变量,pip安装需要的相关模块即可。
使用演示
在cmd窗口运行MT_Cate_Spider.py文件即可。
简单分析
其实在码字的时候我临时加的这个部分。。。
原因很简单。。。
我想强调爬虫和数据分析结合的重要性。。。
数据不多,懒得写代码分析了。。。
利用Excel的数据分析功能简单分析一波吧~~~
用的上海地区的数据。
首先当然是按照评分排个序,然后做成柱状图:
然后是评论数量排个序,做成柱状图:
然后再做点其他有趣的图案:
OK,That's all!
更多
如果有需要,我会写一个爬取美团所有商家信息的脚本,因为就如之前所说。。。
貌似都有直接可以用的接口。。。
所以还算比较简单。。。
只要弄到足够多的cookie值就好了。。。
当然这个Flag应该是要到我实在没东西写或者懒得重新踩点的时候才会去实现了吧。。。
就这样吧~~~
有兴趣的朋友可以试着去抓其他板块的数据。。。
貌似挺easy的。。。
小心别被封了就好了。。。
代码截止2018-02-25测试无误。