Python爬虫：模拟登录知乎（文末附19年最新python电子书分享）

刘康康

2019-03-04

关注关注

这样就建立了一个可以保存cookie的实例对象，它还有一个方法load()可以从本地加载已存的cookie数据，这跟浏览器帮我们自动登录所做的事差不多，这样我们就不用向网站POST登录所需的数据了。

Python爬虫：模拟登录知乎（文末附19年最新python电子书分享）

其中参数ignore_discard=True表示即使cookies将被丢弃也把它保存下来，它还有另外一个参数igonre_expires表示当前数据覆盖（overwritten）原文件。

现在建立一个可以处理cookies的opener。

Python爬虫：模拟登录知乎（文末附19年最新python电子书分享）

接下来我们可以使用opener.open()来传入url和data了。

2. 获取登录所需关键参数

Python爬虫：模拟登录知乎（文末附19年最新python电子书分享）

post的数据查看

这里就把本人邮箱和密码的给打码了哈，嘿嘿。

获取_xsrf

这个参数是动态变化了，所以不能获取一次后就一劳永逸。从html的body里面搜索下_xsrf,然后用正则表达式匹配出来就行。

Python爬虫：模拟登录知乎（文末附19年最新python电子书分享）

获取验证码

虽然现在知乎登录很少遇到要输入验证码的时候（反正我很少），但是遇到时你没有post这个参数过去，是不能成功登录的。

知乎的验证码开始把我给坑了，在html内容的页面里搜索能看到验证码图片的网址，但是实际用xxx.read().decode('utf-8')获取到的网页内容是没有这个网址的，它被隐藏了!好狡诈。研究无果只好搜索，从知乎上这个问题xchaoinfo的回答找到答案，结果是这个图片网址中的一串数字就是时间戳。

Python爬虫：模拟登录知乎（文末附19年最新python电子书分享）

验证码的链接

Python爬虫：模拟登录知乎（文末附19年最新python电子书分享）

3. 尝试模拟登录知乎

关键的两个东西我们都获取到了，现在登录一下试试吧！要将登录方式考虑进去，如果检测到用于输入手机号，则我们应该访问手机登录网址；否则就是邮箱登录。

Python爬虫：模拟登录知乎（文末附19年最新python电子书分享）

关于那句print((json.loads(result))['msg']) ，opener携带数据post过去，请求网址得到的响应会返回登录信息，该数据时json类型，若要查看则用以上语句，eval()函数也是可以的。刚开始我一直是登录失败的，返回这样的玩意儿！

Python爬虫：模拟登录知乎（文末附19年最新python电子书分享）

这里一定注意，登录是一个连贯的过程。这个过程我们总共有三次访问网址，一定保证包括获取动态参数，获取验证码、最终模拟登陆都使用同一个opener。这也是登录失败的原因之一，因为刚开始获取_xsrf和验证码时用的是urlopen()。urllib标准库并不很强大，可以尝试requests库，会让这个过程变得简单。

看下结果吧。如果显示登录成功，可以访问以下个人资料的网址，这个如果登录失败了是不能查看的，会返回到登录界面的网址。

个人资料网页

好了，这次模拟登录感觉与前两次学习比起来难度加深了，好多问题还得靠搜索才能解决。加油吧。

这里贴上全部代码。

Python爬虫：模拟登录知乎（文末附19年最新python电子书分享）

更新

今天翻看了下requests的文档，学了点urllib库再看这个不算很难。我用requests最基本的函数重新实现以上功能，当然大部分代码是重复的。

requests.get()类似urllib.request.urlopen()。如其名是以get方式请求的，接收url，字典形式的headers，timeout，allow_redirects等参数，当然还有requests.post()，可以传入data参数，不像urllib一样需要对字典形式的data进行编码，requests它会自动处理并且data可以传入json数据。

allow_redirects这是参数可选True、False，默认True，若选False则表示禁止重定向，按我的理解即禁止自动跳转。

看下两个库的区别，返回来的response可选text和content，其中text以文本形式返回，content以二进制数据形式返回，比如我们请求的网址是图片，就返回content，便可以以wb方式写入文件了。看下这两个库在实现返回网页内容的区别。对了返回的对象如response还有一个属性是status_code访问成功了当然就返回的200啦。

Python爬虫：模拟登录知乎（文末附19年最新python电子书分享）

然后就是requests.Session()或者requests.session()，大小写一样的，我也不知道这样有啥区别。看类型都是一个class 'requests.sessions.Session'这样的类。requests.Session()会新建一个会话，可以把同一用户的不同请求联系起来，直到会话结束都会自动处理cookies，这比urllib方便多了。如果只使用requests.get()或者requests.post()每次访问网页都是独立进行的，并没有把当前用户的多次访问关联起来，故而模拟登录需要用到requests.Session()。然后再用新建的session使用post()，get()等函数。如下。

Python爬虫：模拟登录知乎（文末附19年最新python电子书分享）