阿里巴巴2W+薪资!Python开发工程师高频面试真题!(建议收藏)

1 遇到过得反爬虫策略以及解决方法?

1.通过headers反爬虫
2.基于用户行为的发爬虫:(同一IP短时间内访问的频率)
3.动态网页反爬虫(通过ajax请求数据,或者通过JavaScript生成)
4.对部分数据进行加密处理的(数据是乱码)

解决方法:

对于基本网页的抓取可以自定义headers,添加headers的数据
使用多个代理ip进行抓取或者设置抓取的频率降低一些,
动态网页的可以使用selenium + phantomjs 进行抓取
对部分数据进行加密的,可以使用selenium进行截图,使用python自带的pytesseract库进行识别,但是比较慢最直接的方法是找到加密的方法进行逆向推理。

阿里巴巴2W+薪资!Python开发工程师高频面试真题!(建议收藏)

2 scrapy分为几个组成部分?分别有什么作用?

分为5个部分;Spiders(爬虫类),Scrapy Engine(引擎),Scheduler(调度器),Downloader(下载器),Item Pipeline(处理管道)。

  • Spiders:开发者自定义的一个类,用来解析网页并抓取指定url返回的内容。
  • Scrapy Engine:控制整个系统的数据处理流程,并进行事务处理的触发。
  • Scheduler:接收Engine发出的requests,并将这些requests放入到处理列队中,以便之后engine需要时再提供。
  • Download:抓取网页信息提供给engine,进而转发至Spiders。
  • Item Pipeline:负责处理Spiders类提取之后的数据。
    比如清理HTML数据、验证爬取的数据(检查item包含某些字段)、查重(并丢弃)、将爬取结果保存到数据库中
  • 正在学习python的小伙伴或者打算学习的,可以私信小编“01”领取资料!

3 简述一下scrapy的基本流程?

阿里巴巴2W+薪资!Python开发工程师高频面试真题!(建议收藏)

scrapy分为9个步骤:

  1. Spiders需要初始的start_url或则函数stsrt_requests,会在内部生成Requests给Engine;
  2. Engine将requests发送给Scheduler;
  3. Engine从Scheduler那获取requests,交给Download下载;
  4. 在交给Dowmload过程中会经过Downloader Middlewares(经过process_request函数);
  5. Dowmloader下载页面后生成一个response,这个response会传给Engine,这个过程中又经过了Downloader Middlerwares(经过process_request函数),在传送中出错的话经过process_exception函数;
  6. Engine将从Downloader那传送过来的response发送给Spiders处理,这个过程经过Spiders Middlerwares(经过process_spider_input函数);
  7. Spiders处理这个response,返回Requests或者Item两个类型,传给Engine,这个过程又经过Spiders Middlewares(经过porcess_spider_output函数);
  8. Engine接收返回的信息,如果使Item,将它传给Items Pipeline中;如果是Requests,将它传给Scheduler,继续爬虫;
  9. 重复第三步,直至没有任何需要爬取的数据
  10. 正在学习python的小伙伴或者打算学习的,可以私信小编“01”领取资料!

阿里巴巴2W+薪资!Python开发工程师高频面试真题!(建议收藏)

5 字符串 "123" 转换成 123,不使用内置api,例如 int()

方法一: 利用 str 函数

def atoi(s):
 num = 0
 for v in s:
 for j in range(10):
 if v == str(j):
 num = num * 10 + j
 return num

方法二: 利用 ord 函数

def atoi(s):
 num = 0
 for v in s:
 num = num * 10 + ord(v) - ord('0')
 return num

方法三: 利用 eval 函数

def atoi(s):
 num = 0
 for v in s:
 t = "%s * 1" % v
 n = eval(t)
 num = num * 10 + n
 return num

方法四: 结合方法二,使用 reduce,一行解决

from functools import reduce
def atoi(s):
 return reduce(lambda num, v: num * 10 + ord(v) - ord('0'), s, 0)

结尾

最后多说一句,小编是一名python开发工程师,这里有我自己整理了一套最新的python系统学习教程,包括从基础的python脚本到web开发、爬虫、数据分析、数据可视化、机器学习等。想要这些资料的可以关注小编,并在后台私信小编:“01”即可领取。

相关推荐