##**QQSpider1:**##
<br/>
爬虫功能:
QQSpider 使用广度优先策略爬取QQ空间中的个人信息、日志、说说、好友四个方面的信息,详细可见数据库说明。
判重使用“内存位”判重,理论上亿数量级的QQ可瞬间判重,内存只占用400M+。
爬虫速度可达到单机每天400万条数据以上(具体要考虑网速、网络带宽、稳定性等原因。我在学校是400万+,但在公司那边却只有六成的速度,普通家庭网络可能会更慢)。
环境、架构:
开发语言:Python2.7
开发环境:64位Windows8系统,4G内存,i7-3612QM处理器。
数据库:MongoDB 3.2.0
(Python编辑器:Pycharm 5.0.4;MongoDB管理工具:MongoBooster 1.1.1)
主要使用 requests 模块抓取,部分使用 BeautifulSoup 解析。
多线程使用 multiprocessing.dummy 。
抓取 Cookie 使用 selenium 和 PhantomJS 。
判重使用 BitVector 。
使用说明:
启动前配置:
MongoDB安装好 能启动即可,不需要配置。
Python需要安装以下模块(注意官方提供的模块是针对win32系统的,64位系统用户在使用某些模块的时候可能会出现问题,所以尽量先找64位模块,如果没有64的话再去安装32的资源):
requests、BeautifulSoup、multiprocessing、selenium、itertools、BitVector、pymongo
另外我们需要使用到 PhantomJS,这并不是 Python 的模块,而是一个exe可执行文件,我们可以利用它模拟浏览器去获取 Cookie 。使用方法:将 phantomjs-2.0.0-windows.zip 压缩包里面的 phantomjs.exe 放到你的 Python 目录下就行了。
如果出现报错:
```
Traceback (most recent call last):
File ".\init.py", line 20, in <module>
my_messages.backups() # 备份爬虫信息
NameError: name 'my_messages' is not defined
```
<br/>
多半的原因是 BitVector 模块用不了,可自行调试。
<br/>
如果确定是BitVector用不了的话可以用 "BitVector模块报错解决" 里面的两个文件替换掉原有文件,不使用BitVector判重,改用python的list判重(数据量不大的话效果是一样的)。
<br/>
<br/>
------------------------------------------------------- 分界线 -------------------------------------------------------
<br/>
<br/>
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL可以通过链接分析、站点地图、搜索引擎等方式获取。 请求网页: 爬虫使用HTTP或其他协议向目标URL发起请求,获取网页的HTML内容。这通常通过HTTP请求库实现,如Python中的Requests库。 解析内容: 爬虫对获取的HTML进行解析,提取有用的信息。常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据库、文件或其他存储介质中,以备后续分析或展示。常用的存储形式包括关系型数据库、NoSQL数据库、JSON文件等。 遵守规则: 为避免对网站造成过大负担或触发反爬虫机制,爬虫需要遵守网站的robots.txt协议,限制访问频率和深度,并模拟人类访问行为,如设置User-Agent。 反爬虫应对: 由于爬虫的存在,一些网站采取了反爬虫措施,如验证码、IP封锁等。爬虫工程师需要设计相应的策略来应对这些挑战。 爬虫在各个领域都有广泛的应用,包括搜索引擎索引、数据挖掘、价格监测、新闻聚合等。然而,使用爬虫需要遵守法律和伦理规范,尊重网站的使用政策,并确保对被访问网站的服务器负责。
资源推荐
资源详情
资源评论
收起资源包目录
QQ空间爬虫(日志、说说、个人信息).zip (33个子文件)
SJT-code
QQSpider2
public_methods.py 6KB
spide_controller.py 4KB
yundama.py 6KB
friend_spider.py 1KB
myQQ.txt 26B
init_messages.py 3KB
blog_spider.py 7KB
QQForSpider.txt 40B
launch.py 695B
information_spider.py 10KB
mood_spider.py 7KB
QQSpider1
public_methods.py 6KB
init.py 779B
QQHadSpided.txt 0B
QQFailSpided.txt 0B
spide_controller.py 4KB
.idea
.name 10B
workspace.xml 56KB
misc.xml 718B
modules.xml 427B
encodings.xml 159B
QQ_spiders.iml 551B
friend_spider.py 1KB
myQQ.txt 33B
init_messages.py 4KB
使用说明.txt 75B
blog_spider.py 8KB
QQForSpider.txt 155B
information_spider.py 10KB
mood_spider.py 7KB
BitVector模块报错解决
spide_controller.py 5KB
init_messages.py 4KB
README.md 2KB
共 33 条
- 1
资源评论
JJJ69
- 粉丝: 6374
- 资源: 5917
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功