# 基于Scrapy的Python3分布式淘宝爬虫
* Items.py : 定义爬取的数据
* pipelines.py : 后处理(Post-process),存储爬取的数据
* taobao.py : 爬虫程序
* settings.py : Srapy设定
## 实现功能:
输入关键字和搜索页数,获取在淘宝上搜索结果中所有商品的**标题**、**链接**、**原价**、**现价**、**商家地址**以及**评论数量**,并将数据存入**MongoDB数据库**中
## 使用教程:
#### 1. 运行前你需要安装并配置好环境:
* Python3
* Scrapy
* MongoDB
* redis
#### 2. 打开MongoDB和redis服务
#### 3. 下载并解压,把文件夹名改为taobao_spider
#### 4. 打开多个cmd,把路径都切换到taobao_spider目录下,输入 *scrapy crawl taobao --nolog*
```cmd
C:\Users>f:
F:\>cd taobao_spider
F:\taobao_spider>scrapy crawl taobao --nolog
```
#### 5. 打开cmd,把路径切换到redis目录下,提交start_url
```cmd
C:\Users>d:
D:\>cd redis
D:\Redis>redis-cli
127.0.0.1:6379> LPUSH TaobaoSpider:start_urls http://taobao.com/
```
#### 6. 在终端中可看见爬取过程,数据存储在MangoDB的tbdb库的taobao表中(存储位置可在pipelines.py中修改)
#### 7. 程序结束后,清除redis中的缓存
```cmd
127.0.0.1:6379> flushdb
```
## 下面是一些爬取结果示例
* 单个终端:
![](https://github.com/tmliang/mymarkdownphoto/raw/master/taobao_img/f.png)
* 多个终端:
![](https://github.com/tmliang/mymarkdownphoto/raw/master/taobao_img/h.png)
* 数据库:
![](https://github.com/tmliang/mymarkdownphoto/raw/master/taobao_img/e.png)
yava_free
- 粉丝: 5441
- 资源: 2095
最新资源
- 永磁同步电机(pmsm)模型预测控制(MPC)matla b simulink仿真模型,有PI矢量控制,直接预测控制(有限集模型预测控制)(这个其中包括做了单矢量和双矢量或者可以成为三矢量的有限集预测
- Google Chrome浏览器ChromeDriver驱动下载(Chrome版本:132.0.6834.84)win64
- Google Chrome浏览器ChromeDriver驱动下载(Chrome版本:132.0.6834.84)win32
- 从0到1搭建推荐系统 - 数据驱动的算法与架构设计(带数据集)
- 汇川H3U标准程序,程序有本体脉冲控制的三轴定位,有总线控制的汇川伺服定位,轴点动,回零,相对定位绝对定位,程序结构清晰,分模块控制,是工控者学习的好案例
- 从0到1搭建推荐系统 - 数据驱动的算法与架构设计(带数据集)
- S7-200Smart 恒压供水程序样例+485通讯样例
- 基于simulink三自由度汽车操纵模型(侧向,侧倾,横摆)带数据参数,有详细公式文档 具有特殊性,发出不 哦(高于或等于MATLAB 2016a版本的都可打开模型)
- C++编写,qt框架,windows串口调试助手,多线程运行,性能好,效率高,不丢数据,保证代码质量
- 从0到1搭建推荐系统 - 数据驱动的算法与架构设计(带数据集)
- . NET C# WPF图书管理系统源码 .net C# WPF图书管理系统源码 自己开发,纯源码 主要技术:C#、基于wpf开发、sql server数据库的增删改查 源码特点:代码完整规范,采
- 西门子Smart200和台达ⅤFD一M系列变频器通讯程序 Smart和三菱E700或D7O0变频器通讯程序,程序带注释,包括接线图纸,变频器参数设置,全都有,拿到即可以用,节约开发时间
- ofdm 水声通信 qpsk fpga
- COMSOL手性超材料文献模拟模型 计算左右旋圆偏振下的吸收、反射、透射率(材料参数未与文献一致 趋势吻合)
- 昆仑通态MCGS与3台力士乐VFC-x610变频器通讯程序 实现昆仑通态触摸屏与3台力士乐VFC-x610变频器通讯,程序稳定可靠 器件:昆仑通态TPC7062KD触摸屏,3台力士乐VFC-x610变
- Unity3d 基于UniStorm插件和xx天气API实现实时天气系统源码工程
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈