scrapy缺省配置

疯狂程序员

2016-03-09

关注关注

BOT_NAME=‘scrapybot’

CLOSESPIDER_TIMEOUT=0

CLOSESPIDER_PAGECOUNT=0

CLOSESPIDER_ITEMCOUNT=0

CLOSESPIDER_ERRORCOUNT=0

COMMANDS_MODULE=”

CONCURRENT_ITEMS=100

CONCURRENT_REQUESTS=16

CONCURRENT_REQUESTS_PER_DOMAIN=8

CONCURRENT_REQUESTS_PER_IP=0

COOKIES_ENABLED=True

COOKIES_DEBUG=False

DEFAULT_ITEM_CLASS=‘scrapy.item.Item’

DEFAULT_REQUEST_HEADERS={

‘Accept’:‘text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8′,

‘Accept-Language’:‘en’,

}

DEPTH_LIMIT=0

DEPTH_STATS=True

DEPTH_PRIORITY=0

DNSCACHE_ENABLED=True

DOWNLOAD_DELAY=0

DOWNLOAD_HANDLERS={}

DOWNLOAD_HANDLERS_BASE={

‘file’:‘scrapy.core.downloader.handlers.file.FileDownloadHandler’,

‘http’:‘scrapy.core.downloader.handlers.http.HttpDownloadHandler’,

‘https’:‘scrapy.core.downloader.handlers.http.HttpDownloadHandler’,

‘s3′:‘scrapy.core.downloader.handlers.s3.S3DownloadHandler’,

}

DOWNLOAD_TIMEOUT=180#3mins

DOWNLOADER_DEBUG=False

DOWNLOADER_HTTPCLIENTFACTORY=‘scrapy.core.downloader.webclient.ScrapyHTTPClientFactory’

DOWNLOADER_CLIENTCONTEXTFACTORY=‘scrapy.core.downloader.webclient.ScrapyClientContextFactory’

DOWNLOADER_MIDDLEWARES={}

DOWNLOADER_MIDDLEWARES_BASE={

#Engineside

‘scrapy.contrib.downloadermiddleware.robotstxt.RobotsTxtMiddleware’:100,

‘scrapy.contrib.downloadermiddleware.httpauth.HttpAuthMiddleware’:300,

‘scrapy.contrib.downloadermiddleware.downloadtimeout.DownloadTimeoutMiddleware’:350,

‘scrapy.contrib.downloadermiddleware.useragent.UserAgentMiddleware’:400,

‘scrapy.contrib.downloadermiddleware.retry.RetryMiddleware’:500,

‘scrapy.contrib.downloadermiddleware.defaultheaders.DefaultHeadersMiddleware’:550,

‘scrapy.contrib.downloadermiddleware.redirect.RedirectMiddleware’:600,

‘scrapy.contrib.downloadermiddleware.cookies.CookiesMiddleware’:700,

‘scrapy.contrib.downloadermiddleware.httpproxy.HttpProxyMiddleware’:750,

‘scrapy.contrib.downloadermiddleware.httpcompression.HttpCompressionMiddleware’:800,

‘scrapy.contrib.downloadermiddleware.chunked.ChunkedTransferMiddleware’:830,

‘scrapy.contrib.downloadermiddleware.stats.DownloaderStats’:850,

‘scrapy.contrib.downloadermiddleware.httpcache.HttpCacheMiddleware’:900,

#Downloaderside

}

DOWNLOADER_STATS=True

DUPEFILTER_CLASS=‘scrapy.dupefilter.RFPDupeFilter’

try:

EDITOR=os.environ['EDITOR']

exceptKeyError:

ifsys.platform==‘win32′:

EDITOR=‘%s-midlelib.idle’

else:

EDITOR=‘vi’

EXTENSIONS={}

EXTENSIONS_BASE={

‘scrapy.contrib.corestats.CoreStats’:0,

‘scrapy.webservice.WebService’:0,

‘scrapy.telnet.TelnetConsole’:0,

‘scrapy.contrib.memusage.MemoryUsage’:0,

‘scrapy.contrib.memdebug.MemoryDebugger’:0,

‘scrapy.contrib.closespider.CloseSpider’:0,

‘scrapy.contrib.feedexport.FeedExporter’:0,

‘scrapy.contrib.logstats.LogStats’:0,

‘scrapy.contrib.spiderstate.SpiderState’:0,

‘scrapy.contrib.throttle.AutoThrottle’:0,

}

FEED_URI=None

FEED_URI_PARAMS=None#afunctiontoextenduriarguments

FEED_FORMAT=‘jsonlines’

FEED_STORE_EMPTY=False

FEED_STORAGES={}

FEED_STORAGES_BASE={

”:‘scrapy.contrib.feedexport.FileFeedStorage’,

‘file’:‘scrapy.contrib.feedexport.FileFeedStorage’,

‘stdout’:‘scrapy.contrib.feedexport.StdoutFeedStorage’,

‘s3′:‘scrapy.contrib.feedexport.S3FeedStorage’,

‘ftp’:‘scrapy.contrib.feedexport.FTPFeedStorage’,

}

FEED_EXPORTERS={}

FEED_EXPORTERS_BASE={

‘json’:‘scrapy.contrib.exporter.JsonItemExporter’,

‘jsonlines’:‘scrapy.contrib.exporter.JsonLinesItemExporter’,

‘csv’:‘scrapy.contrib.exporter.CsvItemExporter’,

‘xml’:‘scrapy.contrib.exporter.XmlItemExporter’,

‘marshal’:‘scrapy.contrib.exporter.MarshalItemExporter’,

‘pickle’:‘scrapy.contrib.exporter.PickleItemExporter’,

}

HTTPCACHE_ENABLED=False

HTTPCACHE_DIR=‘httpcache’

HTTPCACHE_IGNORE_MISSING=False

HTTPCACHE_STORAGE=‘scrapy.contrib.httpcache.DbmCacheStorage’

HTTPCACHE_EXPIRATION_SECS=0

HTTPCACHE_IGNORE_HTTP_CODES=[]

HTTPCACHE_IGNORE_SCHEMES=['file']

HTTPCACHE_DBM_MODULE=‘anydbm’

ITEM_PROCESSOR=‘scrapy.contrib.pipeline.ItemPipelineManager’

#Itempipelinesaretypicallysetinspecificcommandssettings

ITEM_PIPELINES=[]

LOG_ENABLED=True

LOG_ENCODING=‘utf-8′

LOG_FORMATTER=‘scrapy.logformatter.LogFormatter’

LOG_STDOUT=False

LOG_LEVEL=‘DEBUG’

LOG_FILE=None

LOG_UNSERIALIZABLE_REQUESTS=False

LOGSTATS_INTERVAL=60.0

MAIL_DEBUG=False

MAIL_HOST=‘localhost’

MAIL_PORT=25

MAIL_FROM=‘scrapy@localhost’

MAIL_PASS=None

MAIL_USER=None

MEMDEBUG_ENABLED=False#enablememorydebugging

MEMDEBUG_NOTIFY=[]#sendmemorydebuggingreportbymailatengineshutdown

MEMUSAGE_ENABLED=False

MEMUSAGE_LIMIT_MB=0

MEMUSAGE_NOTIFY_MAIL=[]

MEMUSAGE_REPORT=False

MEMUSAGE_WARNING_MB=0

NEWSPIDER_MODULE=”

RANDOMIZE_DOWNLOAD_DELAY=True

REDIRECT_ENABLED=True

REDIRECT_MAX_METAREFRESH_DELAY=100

REDIRECT_MAX_TIMES=20#usesFirefoxdefaultsetting

REDIRECT_PRIORITY_ADJUST=+2

REFERER_ENABLED=True

RETRY_ENABLED=True

RETRY_TIMES=2#initialresponse+2retries=3requests

RETRY_HTTP_CODES=[500,503,504,400,408]

RETRY_PRIORITY_ADJUST=-1

ROBOTSTXT_OBEY=False

SCHEDULER=‘scrapy.core.scheduler.Scheduler’

SCHEDULER_DISK_QUEUE=‘scrapy.squeue.PickleLifoDiskQueue’

SCHEDULER_MEMORY_QUEUE=‘scrapy.squeue.LifoMemoryQueue’

SPIDER_MANAGER_CLASS=‘scrapy.spidermanager.SpiderManager’

SPIDER_MIDDLEWARES={}

SPIDER_MIDDLEWARES_BASE={

#Engineside

‘scrapy.contrib.spidermiddleware.httperror.HttpErrorMiddleware’:50,

‘scrapy.contrib.spidermiddleware.offsite.OffsiteMiddleware’:500,

‘scrapy.contrib.spidermiddleware.referer.RefererMiddleware’:700,

‘scrapy.contrib.spidermiddleware.urllength.UrlLengthMiddleware’:800,

‘scrapy.contrib.spidermiddleware.depth.DepthMiddleware’:900,

#Spiderside

}

SPIDER_MODULES=[]

STATS_CLASS=‘scrapy.statscol.MemoryStatsCollector’

STATS_DUMP=True

STATSMAILER_RCPTS=[]

TEMPLATES_DIR=abspath(join(dirname(__file__),‘..’,‘templates’))

URLLENGTH_LIMIT=2083

USER_AGENT=‘Scrapy/%s(+http://scrapy.org)’%__import__(‘scrapy’).__version__

TELNETCONSOLE_ENABLED=1

TELNETCONSOLE_PORT=[6023,6073]

TELNETCONSOLE_HOST=’0.0.0.0′

WEBSERVICE_ENABLED=True

WEBSERVICE_LOGFILE=None

WEBSERVICE_PORT=[6080,7030]

WEBSERVICE_HOST=’0.0.0.0′

WEBSERVICE_RESOURCES={}

WEBSERVICE_RESOURCES_BASE={

‘scrapy.contrib.webservice.crawler.CrawlerResource’:1,

‘scrapy.contrib.webservice.enginestatus.EngineStatusResource’:1,

‘scrapy.contrib.webservice.stats.StatsResource’:1,

}

SPIDER_CONTRACTS={}

SPIDER_CONTRACTS_BASE={

‘scrapy.contracts.default.UrlContract’:1,

‘scrapy.contracts.default.ReturnsContract’:2,

‘scrapy.contracts.default.ScrapesContract’:3,

}

scrapy depth core downloader

疯狂程序员

0 关注 0 粉丝 0 动态

关注关注

scrapy下载中间件(downloader middleware)和蜘蛛中间件(spider middleware)

首先我们看下scrapy官网提供的新结构图，乍一看这画的是啥啊，这需要你慢慢的理解其原理就很容易看懂了，这些都是一个通用爬虫框架该具有的一些基本组件。上一篇博客说了项目管道，可以看到中间的引擎将item传递给了项目管道，也就是让项目管道来处理抓取到的内容。

MiracleZhao 2020-05-19

如何利用Scrapy爬虫框架抓取网页全部文章信息（上篇）

首先我们理一下爬取思路，大致思想是：当获取到第一个页面的URL之后，尔后将第二页的URL发送给Scrapy，让Scrapy去自动下载该网页的信息，之后通过第二页的URL继续获取第三页的URL，由于每一页的网页结构是一致的，所以通过这种方式如此反复进行迭代，

andrewwf 2020-11-11

一分钟搞定Scrapy分布式爬虫、队列和布隆过滤器

你知道最快的方法是什么吗？一分钟真的能开发好或者修改出一个分布式爬虫吗？话不多说，先让我们看看怎么实践，再详细聊聊细节。如果你没有所需要的运行条件，你可以启动两个 Docker 镜像进行测试 :. 如果你有一个现成的爬虫，可以跳过这个 Step，直接到

Arvinzx 2020-10-28

一篇文章教会你理解Scrapy网络爬虫框架的工作原理和数据采集过程

今天小编给大家详细的讲解一下Scrapy爬虫框架，希望对大家的学习有帮助。Scrapy是一个使用Python编程语言编写的爬虫框架，任何人都可以根据自己的需求进行修改，并且使用起来非常的方便。它可以应用在数据采集、数据挖掘、网络异常用户检测、存储数据等方面

CycloneKid 2020-10-27

在Scrapy中如何利用Xpath选择器从网页中采集目标数据——详细教程（下篇）

前几天给大家分享了在Scrapy中如何利用Xpath选择器从网页中采集目标数据——详细教程（上篇），没来得及上车的小伙伴可以戳进去看看，今天继续上篇的内容往下进行。至此，关于Xpath表达式的具体应用教程先告一段落。

paleyellow 2020-10-25

在Scrapy中如何利用Xpath选择器从网页中采集目标数据——详细教程（上篇）

上一篇文章我们讲述了网页结构和Xpath表达式语法知识，感兴趣的小伙伴可以戳这篇文章：网页结构的简介和Xpath语法的入门教程。我们了解到Xpath表达式最好是通过自己进行网页分析和针对性的选取唯一性的标签进行定位，可以提高提取效率，而且还不容易出错。

baifanwudi 2020-10-25

手把手教你进行Scrapy中item类的实例化操作

首先去parse_detail函数下对其进行实例化，实例化的方法也十分简单，如下图所示。其中，目标字段可以参考items.py中定义的item，这样可以加快填充的速度。

heyboz 2020-10-21

如何改造 Scrapy 从而实现多网站大规模爬取？

Scrapy 框架默认是用来开发定向爬虫的。一般情况下，在 spiders 文件夹下面的一个.py 文件对应了一个网站的爬取。但还有另外一种爬虫，它不会拘泥于提取页面上的特定文字，而是关注如何并行爬取非常多的网站。这种爬虫，一般是从若干个种子网址开始爬。但

wumxiaozhu 2020-10-16

二十六、Scrapy自定义命令

from scrapy.commands import ScrapyCommand??class Command(ScrapyCommand): requires_project = True?

ZHANGRENXIANG00 2020-07-27

scrapy 管理部署的爬虫项目的python类

还有部分api接口没有添加进来,可以参照官方的文档添加.

hilary0 2020-07-05

分布式爬虫部署基于scrapy和scrapy-redis

安装一个scrapy-redis的组件。原生的scrapy是不可以实现分布式爬虫，必须要让scrapy结合着scrapy-redis组件一起实现分布式。scrapy-redis组件的作用可以给原生的scrapy框架提供可以被共享的管道和调度器。结合配置文件

zhangll00 2020-07-05

8_3 scrapy模拟登录人人网

在这个方法中发送post请求，没有重写这个方法基类Spider中的方法 start_request()默认是发送get请求。

javaraylu 2020-06-28

Python爬虫 - scrapy

start_requests:可以将遍历start_urls列表，将每一个列表元素进行get请求的发送。def file_path:指定文件路径。# Don‘t forget to add your pipeline to the ITEM_PIPELIN

ZHANGRENXIANG00 2020-06-28

Scrapy爬虫

二、Scrapy爬虫框架结构

ZHANGRENXIANG00 2020-06-27

用scrapy爬取图片

detail_list = response.xpath(‘//*[@id="main"]/div[3]/ul/li/a/@href‘).extract(). yield scrapy.Request(detail_url, callb

Catastrophe 2020-06-26

scrapy基本知识

Scrapy爬虫框架主要由5个部分组成，分别是：Scrapy Engine，Scheduler（调度器），Downloader（下载器），Spiders（蜘蛛），Item Pipeline。爬取过程是Scrapy引擎发送请求，之后调度器把初始URL交给下载

Catastrophe 2020-06-26

Python爬虫 - scrapy框架的基本操作

scrapy异步的爬虫框架。c. 进入下载目录，执行 pip3 install Twisted?只可以将parse方法的返回值存储到指定后缀的文本文件中。# #xpath在进行数据提取时，返回的不再是字符串而是一个Selector对象，想要

fangjack 2020-06-25

十八、scrapy内置媒体（图片和文件）下载方式

　　MediaPipeline会为当前安排好的要下载的图片保留一个内部队列，并将那些到达的包含相同图片的项目连接到该队列中，避免多次下载几个item共享的同一图片。　　3、当item进入filespipeline,file_urls组内的url将被Scra

andrewwf 2020-06-16

Scrapy爬虫

　　Scrapy是一个常用的爬虫框架，可以提升爬虫的效率，从而更好的实现爬虫。Scrapy是一个为了抓取网页数据、提取结构性数据而编写的应用框架，该框架是封装的，包含request、下载器、解析器和twisted等。定义一个item容器，item容器是存储

qyf 2020-06-14

Python Scrapy图片爬取原理及代码实例

在管道文件对图片进行下载和持久化存储。配置文件要增加IMAGES_STORE = './imgsLib'表明图片存放的路径。#对某一个媒体资源进行请求发送。#item就是接收到的spider提交过来的item. #制定媒体数据存储的名称。#将item传递给

荒乱的没日没夜 2020-06-14

安科网

scrapy缺省配置

疯狂程序员

疯狂程序员

相关推荐

scrapy下载中间件(downloader middleware)和蜘蛛中间件(spider middleware)

如何利用Scrapy爬虫框架抓取网页全部文章信息（上篇）

一分钟搞定Scrapy分布式爬虫、队列和布隆过滤器

一篇文章教会你理解Scrapy网络爬虫框架的工作原理和数据采集过程

在Scrapy中如何利用Xpath选择器从网页中采集目标数据——详细教程（下篇）

在Scrapy中如何利用Xpath选择器从网页中采集目标数据——详细教程（上篇）

手把手教你进行Scrapy中item类的实例化操作

如何改造 Scrapy 从而实现多网站大规模爬取？

二十六、Scrapy自定义命令

scrapy 管理部署的爬虫项目的python类

分布式爬虫部署基于scrapy和scrapy-redis

8_3 scrapy模拟登录人人网

Python爬虫 - scrapy

Scrapy爬虫

用scrapy爬取图片

scrapy基本知识

Python爬虫 - scrapy框架的基本操作

十八、scrapy内置媒体（图片和文件）下载方式

Scrapy爬虫

Python Scrapy图片爬取原理及代码实例

疯狂程序员