python爬虫之大众点评信息爬虫.zip_python爬取大众点评数据资源-CSDN文库

共14个文件

py：6个

png：4个

txt：1个

python

爬虫

1星需积分: 3 27 浏览量 2024-01-11 21:01:42 上传评论 6 收藏 439KB ZIP 举报

Python爬虫技术在数据获取和信息分析领域中扮演着重要角色，特别是在大众点评这样的网站上，我们可以利用爬虫抓取用户评价、商家信息等大量数据，进行数据分析或研究。本项目"python爬虫之大众点评信息爬虫"显然是一个旨在教用户如何构建Python爬虫程序来抓取大众点评网站上的数据的教程。我们要了解Python爬虫的基本概念。Python爬虫是通过编程方式自动化访问Web页面并提取所需信息的工具。主要涉及的库有BeautifulSoup、Requests、Scrapy等。在这个项目中，可能会使用到Requests库发送HTTP请求获取网页源码，然后用BeautifulSoup解析HTML，提取数据。接下来，我们可能要学习如何设置请求头、处理cookies和session，因为大众点评网站通常会对非正常用户行为（如频繁访问）进行反爬机制。我们需要模拟浏览器行为，避免被网站封禁。这可能涉及到设置User-Agent、延时请求、使用代理IP等策略。在解析HTML过程中，我们需要识别出目标数据所在的HTML标签和属性。例如，商家名称可能在`<h1>`标签内，评价内容可能在`<p>`标签中，而评分可能在某个类名为"star-score"的元素内。因此，了解HTML和CSS选择器至关重要。此外，大众点评的信息通常分页展示，我们还需要实现翻页功能。这可能涉及计算页码，构造带有不同页码的URL，以及递归或循环请求每一页的数据。对于动态加载的内容，可能需要使用Selenium或者Pyppeteer库，这些库可以模拟真实用户操作，如滚动页面、点击按钮等，从而加载并获取隐藏数据。项目中的"Dianping-master"可能是一个包含爬虫代码的目录，其中可能有以下结构： - `spider.py`：主爬虫程序，包含请求、解析、存储等功能。 - `config.py`：配置文件，用于设置请求参数、存储路径等。 - `models.py`：定义数据模型，方便将抓取的数据结构化存储。 - `utils.py`：辅助工具函数，如日志记录、异常处理等。 - `data`：存放抓取到的数据文件夹。 - `requirements.txt`：项目依赖的Python库列表。在实际运行这个项目时，我们需要按照文档指示安装所需的Python库，运行爬虫脚本，并根据输出结果检查是否成功抓取了大众点评的信息。同时，要注意遵守法律法规，尊重网站的Robots协议，不进行非法爬取和滥用数据。这个项目涵盖了Python爬虫的基本流程和技术点，是学习网络爬虫和数据分析的好素材。通过实践，我们可以提升Python编程能力，加深对Web爬虫原理的理解，并掌握处理复杂网页结构和反爬策略的方法。

资源推荐

资源详情

资源评论

收起资源包目录

python爬虫之大众点评信息爬虫.zip （14个子文件）

Dianping-master

utils

__init__.py 0B

common.py 198B

ua.log 117KB

dianping.py 2KB

view

db.png 49KB

analysis03.png 139KB

analysis02.png 188KB

analysis01.png 65KB

requirements.txt 98B

proxy.py 1KB

.gitignore 1KB

parse.py 7KB

README.md 2KB

config.py 2KB

## 大众点评店铺信息爬虫 &emsp; 花式反反爬之抓取大众点评店铺信息。 ## 项目目录 ``` │ config.py │ dianping.py │ parse.py │ proxy.py │ README.md │ requirements.txt │ ├─utils │ common.py │ ua.log │ __init__.py │ └─view analysis*.png db.png ``` ## 环境依赖 ```Python pip3 install -r requirements.txt ``` ## 抓取流程 &emsp; 美食店铺首页开始，遍历抓取每页内容。 ```Python for i in range(50): print("第%d页：" %(i+1)) response = self.get_store_list_page(INIT_URL.format(str(i+1))) self.parse_data(response) time.sleep(eval('%.1f'%random.random())) # 测试仅抓取第一页 break ``` ## 花式反爬 &emsp; 大众点评的反爬措施很强，可以ban掉大部分爬虫。当然，误伤率也比较高。测试期间发现的反爬措施有： - 常规链接404（店铺详情页链接404页面） - 请求头校验 - 多类型字体反爬（偏移量，自定义css） - 验证码（常规四字中英文混合） - cookies - ban ip &emsp; 例如，当我用 Postman 测试链接时发现，若不用UA则返回 403，要求输入验证码方可正常访问。而大众点评总的来说还是基于IP检测，所以，爬虫的重点在于：**代理IP的质量**。 ## 反反爬 - 挂代理（加强型爬虫代理） - Headers 添加随机 UA 和 Refer 参数 - 随机抓取时延 &emsp; 注意： - 加强型爬虫代理非一般隧道或API类型代理IP，成活率较高 - 原始headers中没有Refer参数，测试发现，添加Refer参数可提高请求头伪装效率 ## 解释说明 1. 为测试方便，未实现自动获取css、svg_font、svg_num等链接，请自行复制（测试期间每间隔一天变化一次） 2. 未处理数字、文字拼接逻辑。例如：页面要处理的数字为 1081 中的 1、0、1，实际结果可能为 8101（日后再更） 3. config.py 中的所有代理均已失效或涂改，需要自己更换 ## 运行 &emsp; 命令行切换至根目录： ```Python >>> python dianping.py ``` ## 抓取结果 ![database screenshot](https://github.com/Northxw/Dianping/blob/master/view/db.png) ## 公告 &emsp; **本代码仅作学习交流，切勿用于商业用途，否则后果自负。若涉及点评网侵权，请邮箱联系，会尽快处理。**

评论收藏

内容反馈