Scrapy 架构介绍

andrewwf

2020-04-10

Scrapy 架构

Scrapy 架构介绍

它可以分为如下的几个部分。

Engine引擎(大总管)，用来处理整个系统的数据流处理，触发事务，是整个框架的核心。
Item，项目，它定义了爬取结果的数据结构，爬取的数据会被赋值成该对象。
Scheduler，调度器，用来接受引擎发过来的请求并加入队列中，并在引擎再次请求的时候提供给引擎，可以想像成一个URL的优先级队列, 由它来决定下一个要抓取的网址是什么, 同时去除重复的网址
Downloader，下载器，用于下载网页内容，并将网页内容返回给EGINE，下载器是建立在twisted这个高效的异步模型上的
Spiders，蜘蛛，是开发人员自定义的类，里面有爬取的逻辑和网页的解析规则，它主要负责解析响应并生成提取结果和新的请求。
Item Pipeline，项目管道，在items被提取后负责处理它们，它的主要任务是清洗、验证和存储数据。
Downloader Middlewares，下载器中间件，位于引擎和下载器之间的钩子框架，主要是处理引擎与下载器之间的请求及响应。（用的最多，加头，加代理，加cookie，集成selenium）
Spider Middlewares，蜘蛛中间件，位于引擎和蜘蛛之间的钩子框架，主要工作是处理蜘蛛输入的响应和输出的结果及新的请求。

两个桥梁

Scrapy 架构介绍

Scrapy 架构介绍

数据流

Scrapy 中的数据流由引擎控制，其过程如下:

Engine 首先打开一个网站，找到处理该网站的 Spider 并向该 Spider 请求第一个要爬取的 URL。
Engine 从 Spider 中获取到第一个要爬取的 URL 并通过 Scheduler 以 Request 的形式调度。
Engine 向 Scheduler 请求下一个要爬取的 URL。
Scheduler 返回下一个要爬取的 URL 给 Engine，Engine 将 URL 通过 Downloader Middlewares 转发给 Downloader 下载。
一旦页面下载完毕， Downloader 生成一个该页面的 Response，并将其通过 Downloader Middlewares 发送给 Engine。
Engine 从下载器中接收到 Response 并通过 Spider Middlewares 发送给 Spider 处理。
Spider 处理 Response 并返回爬取到的 Item 及新的 Request 给 Engine。
Engine 将 Spider 返回的 Item 给 Item Pipeline，将新的 Request 给 Scheduler。
重复第二步到最后一步，直到 Scheduler 中没有更多的 Request，Engine 关闭该网站，爬取结束。

通过多个组件的相互协作、不同组件完成工作的不同、组件对异步处理的支持，Scrapy 最大限度地利用了网络带宽，大大提高了数据爬取和处理的效率。

架构 scrapy downloader

andrewwf

0 关注 0 粉丝 0 动态

相关推荐

去一家小公司从0到1搭建后端架构，做个总结！

产品是一款服务于人力资源的SaaS在线服务，面向HR有Web Android/iOS 小程序多个客户端，后端采用RESTful风格API来提供服务。主要使用Python语言，方便快速迭代。同时还有实时消息通知的需要使用了Nginx Push Module。

cywhoyi 2020-11-23

软件架构设计分层模型和构图思考

对于架构思维本身仍然是类似系统思维，结构化思维，编程思维等诸多思维模式的一个合集。由于架构的核心作用是在业务现实世界和抽象的IT实现之间建立起一道桥梁，因此架构思维最核心的就是要理解到业务驱动技术，技术为最终的业务服务。要真正通过架构设计来完成业务和技术，

rise 2020-11-22

细数软件架构中的解耦

架构是软件方法学的范畴，它解决的是软件组织的问题，不解决软件算法的问题。两者的区别可用下图的积木做个类比：。而架构则是把各种积木块，组装成一个城堡，一辆小火车。供给角度的品类扩张，需求角度的场景扩张，构成了京东矩阵式垂直业务线。中间层映射，在应用层表现为面

sssdssxss 2020-11-20

高可用架构怎么选？常见多活建设这么一对比就懂了

采用高可用系统架构支持重要系统，为关键业务提供7x24的不间断服务，已经成为众多企业保障业务稳定、持续运转的主要选择。服务多活是高可用架构重要实施手段，本文介绍了一些业界常用的多活手段，例如同城双活、两地三中心、异地多活架构设计方案并详述了各种方案的优缺点

xuedabao 2020-11-19

服务网格如何实现微服务网络

服务网格是最新热门网络技术，它彻底改变了应用程序网络服务。服务网格旨在为容器上运行的微服务应用程序提供可靠通信、安全性和分析功能。微服务正在成为日益流行的平台，推动着DevOps团队的敏捷应用程序开发。IT和安全团队需要创建架构来支持生产微服务部署所需的独

alien 2020-11-15

如何用图形分析来可视化微服务架构

在使用的过程中，您是否碰到过一些意料之外的问题?本文将通过分析基于Spring Cloud的微服务系统、jQAssistant和Neo4j，与您讨论如何用图形技术，来实现检测反模式、可视化全系统、以及跨服务影响分析。可是到了开发的末期，我们碰到了代码缺陷

JLow 2020-11-12

程序员也需了解的主流云计算网络架构

当前越来越多的企业将自己的业务迁移至云端，云计算的发展势头不可阻挡，身边好多朋友也纷纷购买云主机用来学习测试。有那么一波小伙伴们肯定好奇这么多的云主机是通过怎样的网络架构来承载的呢，本篇文章就为大家带来一一揭晓主流的云计算网络架构。随着企业业务的快速扩展，

ruancw 2020-11-10

13张图彻底搞懂分布式系统服务注册与发现原理

本文转载自微信公众号「爱笑的架构师」，可以通过以下二维码关注。在微服务架构或分布式环境下，服务注册与发现技术不可或缺，这也是程序员进阶之路必须要掌握的核心技术之一，本文通过图解的方式带领大家轻轻松松掌握。但在现实的创业环境中一个项目可能是九死一生，如果一开

地平线 2020-11-02

打工人，支撑亿级高并发的系统长啥样?

面对业务急剧增长你怎么处理?数据库层面做好读写分离、分库分表，稳定性方面要保证有监控，熔断限流降级该有的必须要有，发生问题能及时发现处理。这样从整个系统设计方面就会有一个初步的概念。Broadcast Cluster 广播模式：逐个调用每个 provide

yinren 2020-11-02

13张IT架构图！从数字化转型，到数据架构

今天给大家上13个架构图，不说一些文字。我一直觉得，从架构图上可以学到很多东西，这相比于文字更能理解，而且很多人在做事的时候，是想不清楚具体要怎么做的，都是一开始直接上手，然后后面也不知道怎么改。这篇文章，是我在读了2本书之后，哪2本书呢？是《IT结构治理

evolone 2020-10-29

TCP接入层的负载均衡、高可用、扩展性架构

今天和大家系统性聊聊TCP的负载均衡，高可用，与扩展性架构。互联网架构中，web-server接入一般使用nginx来做反向代理，实施负载均衡。整个架构分三层：。上游调用层，一般是browser或者APP;中间反向代理层，nginx;下游真实接入集群，we

liupengqwert 2020-10-28

亚马逊：我们提取了BERT的一个最优子架构，CPU速度升7倍

提取 BERT 子架构是一个非常值得探讨的问题，但现有的研究在子架构准确率和选择方面存在不足。近日，来自亚马逊 Alexa 团队的研究者细化 BERT 子架构提取过程，并提取了一个最优子架构 Bort，它的大小仅为 BERT-large 的 16%，CPU

acaoye 2020-10-27

APICloud多端架构与开发实践干货分享

10月24日,第二届全球移动开发者技术峰会在京顺利召开,APICloud技术负责人李德兴受邀参加此次大会并发表了主题演讲。此次峰会融合了互联网、云计算、人工智能等新一代信息技术,围绕开发者跨平台开发工具、开发运营、app合规等热点话题展开讨论,APIClo

jyj0 2020-10-27

系统从初期到支撑亿级流量，都经历了哪些架构上的演变？

作者个人研发的在高并发场景下，提供的简单、稳定、可扩展的延迟消息队列框架，具有精准的定时任务和延迟队列处理功能。自开源半年多以来，已成功为十几家中小型企业提供了精准定时调度方案，经受住了生产环境的考验。总体来说，系统的架构大致经历了：单体应用架构—>

ruancw 2020-10-27

程序员必知的几种软件架构模式

架构模式是对给定上下文的软件架构中常见问题的一种通用的可复用的解决方案。最常见的架构模式就是分层架构或者称为 n 层架构。层将一组软件作为一个完整的分区，每个分区暴露一个公开接口。例如，展现层负责处理所有的用户界面。请求不能跳过任何层。分层会导致性能下降。

JAVA飘香 2020-10-26

科技趋势年末盘点：德勤2020技术趋势报告解读

2020年全球风云变幻的一年。经济局势受疫情影响，充满了未知。有的行业在观望中等待机遇，有的在谋求转型，在不确定中“逆袭”。科技无疑是其中重要的支撑力量。随着2020即将走到尾声，我们将重新回顾这些技术洞察，并探索他们将如何成为未来企业革新的颠覆性力量。首

withjeffrey 2020-10-23

提效降本，您不可不知道的云架构秘诀

或许你认为你知道关于配置云计算解决方案的相关知识，但实际上，云提供商并不会对受众和盘托出。比如云架构优化，这意味着该解决方案可以最大程度地提高效率并降低成本，这意味着你选择了正确的云资源来配置最佳的存储系统、数据库和计算平台。但笔者经常看到云服务提供商致力

litefish 2020-10-16

Menger:大规模分布式强化学习架构

简单来说，RL基础架构就是数据采集和训练的循环，Actor根据环境收集样本数据，然后将其传输给Learner来训练和更新模型。当前大多数RL实现都需要对环境中成千上万个样本进行多次迭代，以学习目标任务，如Dota 2每2秒要学习成千上万帧样本。这样，RL

richermen 2020-10-15

服务网格和API网关在微服务架构中的作用

如果您从事微服务，那么您可能已经多次听说过这两个术语。人们常常在两者之间感到困惑。在本文中，我将详细讨论服务网格和API网关，并讨论何时使用。在深入研究服务网格和API网关之前，让我们重新访问网络层。API网关充当进入集群，数据中心或一组分布式服务的单个入

kjyiyi 2020-10-10

这批安卓应用或在2022年停止工作

ARM召开了DevSummit开发者峰会。在会议上，ARM预览了未来两代的Cortex CPU大核，分别代号Matterhorn和Makalu。据ARM表示2022年的Makalu峰值性能预计比今年推出的Cortex-A78提升30%。同时，ARM还为开发

业余架构师 2020-10-09

andrewwf

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号