爬虫流程
整个爬虫流程
1、scrapy crawl chouti --nolog
2、找到 SCHEDULER = "scrapy_redis.scheduler.Scheduler" 配置并实例化调试器对象
- 执行Scheduler.from_crawler
- 执行Scheduler.from_settings
-读取配置文件:
SCHEDULER_PERSIST # 是否在关闭时候保留原来的调度器和去重记录,True=保留,False=清空
SCHEDULER_FLUSH_ON_START # 是否在开始之前清空 调度器和去重记录,True=清空,False=不清空
SCHEDULER_IDLE_BEFORE_CLOSE # 去调度器中获取数据时,如果为空,最多等待时间(最后没数据,未获取到)
-继续读取配置文件:
SCHEDULER_QUEUE_KEY = ‘%(spider)s:requests‘ # 调度器中请求存放在redis中的key
SCHEDULER_QUEUE_CLASS = ‘scrapy_redis.queue.PriorityQueue‘ # 默认使用优先级队列(默认),其他:PriorityQueue(有序集合),
FifoQueue(列表)、LifoQueue(列表)
SCHEDULER_DUPEFILTER_KEY = ‘%(spider)s:dupefilter‘ # 去重规则,在redis中保存时对应的key
SCHEDULER_DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
SCHEDULER_SERIALIZER = "scrapy_redis.picklecompat" # 对保存到redis中的数据进行序列化,默认使用pickle
-再继续读取配置文件:
# REDIS_HOST = ‘localhost‘ # 主机名
# REDIS_PORT = 6379 # 端口
# REDIS_PARAMS = {} # Redis连接参数 默认:REDIS_PARAMS = {‘socket_timeout‘: 30,‘socket_connect_timeout‘: 30,‘retry_on_timeout‘: True,‘encoding‘: REDIS_ENCODING,})
# REDIS_ENCODING = "utf-8" # redis编码类型
- 实例化Scheduler对象
3、爬虫开始执行起始URL
- 调用 scheduler.enqueue_request方法
def enqueue_request(self, request):
# 请求是否需要过滤 #去重规则中是否已经有(是否已经访问过)
if not request.dont_filter and self.df.request_seen(request):
self.df.log(request, self.spider)
return False # 已经访问过就不要再访问了
if self.stats:
self.stats.inc_value(‘scheduler/enqueued/redis‘, spider=self.spider)
self.queue.push(request) # 未访问过就加到队列里面去等调试器来调用
return True
4、下载器去调度器中获取任务, 去下载
-调用 scheduler.next_requests()
def next_request(self):
block_pop_timeout = self.idle_before_close
request = self.queue.pop(block_pop_timeout)
if request and self.stats:
self.stats.inc_value(‘scheduler/dequeued/redis‘, spider=self.spider)
return request 相关推荐
王道革 2020-11-25
wangdonghello 2020-11-03
chenhualong0 2020-11-16
聚合室 2020-11-16
koushr 2020-11-12
guoyanga 2020-11-10
fackyou00 2020-11-10
Orangesss 2020-11-03
dongCSDN 2020-10-31
Quietboy 2020-10-30
liuyulong 2020-10-29
fansili 2020-10-29
温攀峰 2020-10-23
jackbon 2020-10-19
kaixinfelix 2020-10-04