python爬虫-静态爬取豆瓣评论

文山羊

2020-05-19

from bs4 import BeautifulSoupimport requestsimport pandas as pdheader = {‘Referer‘: ‘https://movie.douban.com/subject/33420285/comments?status=P‘,‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36‘}reviewers = []dates = []shot_comments = []votes = []for i in range(0,100,20):    url=f‘https://movie.douban.com/subject/33420285/comments?start={i}&limit=20&sort=new_score&status=P‘    request = requests.get(url,headers=header)    html = request.content.decode(‘utf-8‘)    dom = BeautifulSoup(html,‘lxml‘)    reviewers = reviewers + [i.getText() for i in dom.select(‘#comments > div > div.comment > h3 > span.comment-info > a‘)]    dates = dates + [i.getText() for i in dom.select(‘#comments > div > div.comment > h3 > span.comment-info > span.comment-time‘)]    shot_comments = shot_comments + [i.getText() for i in dom.select(‘#comments > div > div.comment > p > span‘)]    votes = votes+ [i.getText() for i in dom.select(‘#comments > div > div.comment > h3 > span.comment-vote > span‘)]short = pd.DataFrame({    ‘时间‘:dates,‘评论者‘:reviewers,‘留言‘:shot_comments,‘票数‘:votes})short.to_excel(‘./short.xlsx‘)

分析：

我们写代码的步骤是第一步：判断是否设置反爬机制，第二步：先爬取整个网页，第三步：再提取想要的内容，第四步：最后保存到本地。明白了我们要做什么再一步一步的去做

step1：判断是否设置反爬

import requests

url = "https://movie.douban.com/subject/33420285/comments?status=P"
request = requests.get(url)

print(request.status_code)

requests.get（url，params = None，headers = None，cookies = None，auth = None，timeout =无）发送GET请求。返回Response对象，其存储了服务器响应的内容。

打印出响应的状态码，如果为418则是设置了反爬机制，如果是200，就ok。

python爬虫-静态爬取豆瓣评论

可以看到状态码为418，那么就需要绕过反爬，设置head

python爬虫-静态爬取豆瓣评论

将request headers中的User-Agent加上

import requests

url = "https://movie.douban.com/subject/33420285/comments?status=P"

headers = {
‘Referer‘: ‘https://movie.douban.com/subject/33420285/comments?status=P‘,
‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36‘
}

request = requests.get(url,headers=headers)

print(request.status_code)

python爬虫-静态爬取豆瓣评论

此时状态码就为200了，进行下一步

step2：抓取页面内容

import requests


url = "https://movie.douban.com/subject/33420285/comments?status=P"

headers = {
‘Referer‘: ‘https://movie.douban.com/subject/33420285/comments?status=P‘,
‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36‘
}

request = requests.get(url,headers=headers)
html = request.content.decode(‘utf-8‘)

html = request.content.decode(‘utf-8‘)表示将网页的html内容解码出来，右键查看源码可以看到编码格式

可以print(html)，也可以在python console中查看爬取的网页源码

python爬虫-静态爬取豆瓣评论

切换到python console运行的方法为：

选择菜单栏

python爬虫-静态爬取豆瓣评论

然后勾选

python爬虫-静态爬取豆瓣评论

step3：提取有效内容

python爬虫-静态爬取豆瓣评论

F12，选择要爬取的内容，然后右键copy，得到内容为

#comments > div:nth-child(1) > div.comment > h3 > span.comment-info > a  指明要爬取的内容处于html结构中的哪个位置

from bs4 import BeautifulSoup   #好找到提取文本对象的工具
import requests


url = "https://movie.douban.com/subject/33420285/comments?status=P"

headers = {
‘Referer‘: ‘https://movie.douban.com/subject/33420285/comments?status=P‘,
‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36‘
}

request = requests.get(url,headers=headers)


html = request.content.decode(‘utf-8‘)

dom = BeautifulSoup(html , ‘lxml‘) #将html类型的内容转换为文档类型

reviewers =[i.getText() for i in dom.select(‘#comments > div > div.comment > h3 > span.comment-info > a‘)]  #使用一个循环，循环dom.select列表中的每一个元素i，并用getText()提取出文本  评论者id
dates = [i.getText() for i in dom.select(‘#comments > div > div.comment > h3 > span.comment-info > span.comment-time‘)] #评论日期
shot_comments = [i.getText() for i in dom.select(‘#comments > div > div.comment > p > span‘)]   #shift+alt+e 评论
votes = [i.getText() for i in dom.select(‘#comments > div > div.comment > h3 > span.comment-vote > span‘)] #投票数

#comments > div:nth-child(1) > div.comment > h3 > span.comment-info > a  #comments > div:nth-child(2) > div.comment > h3 > span.comment-info > a   可以看到不同位置上的id是不同的，所以这里将:nth-child()这一块删除掉就会显示所有评论者的id了

dom.selec()将指定位置处的内容转换为文档类型，使用了一个i.getText() for i in 循环，表示将dom.select得到的列表中的每一个元素都经过getText()处理。getText()代表将获取的列表提取出其中的文本，不要html等结构。

此时可以看到我们想要的单独的数据

python爬虫-静态爬取豆瓣评论

shift+alt+e 选中区域可以单独运行选中的代码

但是现在只有第一页的数据，要怎么样才能爬取很多页的数据呢？就要用到循环

每一页的操作都是一样的，唯一不同的就是url，每一页的不同

第一页：https://movie.douban.com/subject/33420285/comments?start=0&limit=20&sort=new_score&status=P

第二页：https://movie.douban.com/subject/33420285/comments?start=20&limit=20&sort=new_score&status=P

第三页：https://movie.douban.com/subject/33420285/comments?start=40&limit=20&sort=new_score&status=P

可以看到是start值发生了变化，那么我们就可以改变start的值来循环

from bs4 import BeautifulSoup  
import requests


url1 = "https://movie.douban.com/subject/33420285/comments?status=P"

headers = {
‘Referer‘: ‘https://movie.douban.com/subject/33420285/comments?status=P‘,
‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36‘
}

for i in range(0,100,20):
    url = f‘https://movie.douban.com/subject/33420285/comments?start={i}&limit=20&sort=new_score&status=P‘
    request = requests.get(url,headers=headers)

    html = request.content.decode(‘utf-8‘)  

    dom = BeautifulSoup(html , ‘lxml‘) 
    reviewers = reviewers +[i.getText() for i in dom.select(‘#comments > div > div.comment > h3 > span.comment-info > a‘)]  
    dates = dates+[i.getText() for i in dom.select(‘#comments > div > div.comment > h3 > span.comment-info > span.comment-time‘)] 
    shot_comments = shot_comments+[i.getText() for i in dom.select(‘#comments > div > div.comment > p > span‘)]  
    votes = votes+[i.getText() for i in dom.select(‘#comments > div > div.comment > h3 > span.comment-vote > span‘)]

将start的值设为参数i，参与循环从0到100，步数20，也就是0、20、40、60、80、100，循环6次。

以下的内容都要缩进到for循环中。

要注意的一点是，都要加上reviewers+ 、dates+ 、shot_comments+ 、votes+ ，因为如果不加的话，光是

reviewers = [i.getText() for i in dom.select(‘#comments > div > div.comment > h3 > span.comment-info > a‘)]

那么第二次循环就会覆盖掉前一次获取到的reviewers值，第三次循环又会覆盖掉第二次循环的值。。。所以加上reviewers表示追加，就不会覆盖掉内容了

step4：保存到本地，在代码最后加上

import pandas as pd
short = pd.DataFrame({
    ‘时间‘:dates,‘评论者‘:reviewers,‘留言‘:shot_comments,‘票数‘:votes
})
short.to_excel(‘./short.xlsx‘)

运行完整代码，如果提示

python爬虫-静态爬取豆瓣评论

那么就在循环前先定义一下，reviewers = [] python爬虫-静态爬取豆瓣评论

python爬虫豆瓣 python

文山羊

0 关注 1 粉丝 0 动态

关注关注

Python爬虫破解登陆哔哩哔哩的方法

作为一名找不到工作的爬虫菜鸡人士来说，登陆这一块肯定是个比较大的难题。从今天开始准备一点点对大型网站进行逐个登陆破解。加深自己爬虫水平。if response_json['code'] == 0 and response_json['data']['sta

夜斗不是神 2020-11-17

python 爬虫如何实现百度翻译

本文将会通过爬虫的方式实现简单的百度翻译。本文中的代码只供学习，不允许作为于商务作用。若有侵犯，立即删文！在网站文件中找到隐藏的免费api。传入api所需要的参数并对其发出请求。在返回的json结果里找到相应的翻译结果。进入百度翻译，随便输入一段需要翻译的

染血白衣 2020-11-16

可能是最全的反爬虫及应对方案

爬虫是 Python 的一个常见应用场景，很多练习项目就是让大家去爬某某网站。爬取网页的时候，你大概率会碰到一些反爬措施。这种情况下，你该如何应对呢？本文梳理了常见的反爬措施和应对方案。很多网站都会建立 user-agent白名单，只有属于正常范围的use

ARCXIANG 2020-11-02

Python爬虫遇到验证码的几种处理方式，文章末尾有源码

不管这些了，无所谓的东西，这边博客，将处理图片验证码的2个比较优秀的方式进行了一次封装, 分别是百度的aip 和一个最近火起来的识别muggle-ocr. 本篇文章介绍了爬虫中验证码的处理方式，并把这些功能封装起来，供我们使用，涉及到百度AIP的

ARCXIANG 2020-10-28

一篇文章教会你理解Scrapy网络爬虫框架的工作原理和数据采集过程

今天小编给大家详细的讲解一下Scrapy爬虫框架，希望对大家的学习有帮助。Scrapy是一个使用Python编程语言编写的爬虫框架，任何人都可以根据自己的需求进行修改，并且使用起来非常的方便。它可以应用在数据采集、数据挖掘、网络异常用户检测、存储数据等方面

CycloneKid 2020-10-27

Python爬虫入门教程！手把手教会你爬取网页数据

这里的“技术手段”就是网络爬虫。今天就给大家分享一篇爬虫基础知识和入门教程：。爬虫就是自动获取网页内容的程序，例如搜索引擎，Google，Baidu 等，每天都运行着庞大的爬虫系统，从全世界的网站中爬虫数据，供用户检索时使用。Requests 库是 Py

荒谬小孩 2020-10-26

Python快速上手爬虫的7大技巧

Python应用最多的场景还是Web快速开发、爬虫、自动化运维。爬虫在开发过程中也有很多复用的过程，这里总结一下，以后也能省些事情。关键在于CookieJar()，它用于管理HTTP cookie值、存储HTTP请求生成的cookie、向传出的HTTP请

逍遥友 2020-10-26

只听说过用Python做爬虫，Java程序员笑了！

本文转载自微信公众号「Java极客技术」，作者鸭血粉丝。网络爬虫技术，早在万维网诞生的时候，就已经出现了，今天我们就一起来揭开它神秘的面纱!的确，pyhton 在处理网页方面，有着开发简单、便捷、性能高效的优势!但是我们 java 也不赖，在处理复杂的网

snakeson 2020-10-09

快速指南：如何创建基于Python的爬虫

Web抓取的使用正在积极增加，特别是在大型电子商务公司中，Web抓取是一种收集数据以竞争，分析竞争对手和研究新产品的方式。Web抓取是一种从网站提取信息的方法。在本篇文章中，学习如何创建基于Python的刮板。深入研究代码，看看它是如何工作的。在当今的大数

meylovezn 2020-08-28

山东创睦网络科技有限公司：如何在一个月内学会爬取数据

如果你仔细观察，就不难发现，懂爬虫、学习爬虫的人越来越多，一方面，互联网可以获取的数据越来越多，另一方面，像 Python这样的编程语言提供越来越多的优秀工具，让爬虫变得简单、容易上手。爬虫是入门Python最好的方式，没有之一。因为这个过程中，Pytho

囧芝麻 2020-08-17

python爬虫一般用什么框架?六大Python框架

python爬虫可以使用的框架有很多，一般在大型需求的时候才会使用python爬虫框架。　　Scrapy：一个为了爬取网站数据，提取结构性数据而编写的应用框架。应用在数据挖掘、信息处理或者存储历史数据等一系列程序中。是很强大的爬虫框架，可以满足简单的页面爬

数据挖掘工人 2020-08-15

python爬虫使用lxml解析数据编码乱码问题

response = requests.get(url=url, headers=headers).text. name = html.xpath("/html/body/div[2]/ul/li[1]/a/p/text()")[0].

cxcxrs 2020-07-28

如何用一行代码让gevent爬虫提速100%

用python做网络开发的人估计都听说过gevent这个库，gevent是一个第三方的python协程库，其是在微线程库greenlet的基础上构建而成，并且使用了epoll事件监听机制，这让gevent具有很好的性能并且比greenlet更好用。基于li

dashoumeixi 2020-07-20

用urllib库几行代码实现最简单爬虫

使用urllib.request()请求一个网页内容，并且把内容打印出来。# 存取到内存当中是bytes流，使用read方法把rsp的内容读取出来，赋值给变量html。# 使用decode解码成我们能够看懂的格式。D:\ProgramData\Anacon

sunzhihaofuture 2020-07-19

Python爬虫初学-urllib3

学习爬虫中，从最近自己写的爬虫小程序中抓截一点代码。print("找不到的随笔!

Ericbig 2020-07-18

python系统学习4——多个爬虫测试案例

通过几天学习，对基础的静态网页、网页信息不是由js等动态显示的网页的爬虫编写有了较好的认识，用几个简单案例进行测试。要求爬取全国大学网上2019年的全国大学排名，并展示出排名、名称及分数，由于每一个大学都是在一个tbody标签下，所以利用bs4较为简单。　

我欲疾风前行 2020-07-06

scrapy 管理部署的爬虫项目的python类

还有部分api接口没有添加进来,可以参照官方的文档添加.

hilary0 2020-07-05

Python简易爬虫+图形化界面

post = re.findall(‘<span class="post-view-count">(.*?)</span>‘, html). lb1.place(relx=0.1, rely=0.1, relwi

sunzhihaofuture 2020-07-04

python爬虫beautifulsoup查找定位Select用法

<p class="story">Once upon a time there were three little sisters; and their names were. 我们在写 CSS 时，标签名不加任何修饰，类名

Dimples 2020-06-28

Python爬虫 - scrapy

start_requests:可以将遍历start_urls列表，将每一个列表元素进行get请求的发送。def file_path:指定文件路径。# Don‘t forget to add your pipeline to the ITEM_PIPELIN

ZHANGRENXIANG00 2020-06-28

安科网

python爬虫-静态爬取豆瓣评论

文山羊

文山羊

相关推荐

Python爬虫破解登陆哔哩哔哩的方法

python 爬虫如何实现百度翻译

可能是最全的反爬虫及应对方案

Python爬虫遇到验证码的几种处理方式，文章末尾有源码

一篇文章教会你理解Scrapy网络爬虫框架的工作原理和数据采集过程

Python爬虫入门教程！手把手教会你爬取网页数据

Python快速上手爬虫的7大技巧

只听说过用Python做爬虫，Java程序员笑了！

快速指南：如何创建基于Python的爬虫

山东创睦网络科技有限公司：如何在一个月内学会爬取数据

python爬虫一般用什么框架?六大Python框架

python爬虫使用lxml解析数据编码乱码问题

如何用一行代码让gevent爬虫提速100%

用urllib库几行代码实现最简单爬虫

Python爬虫初学-urllib3

python系统学习4——多个爬虫测试案例

scrapy 管理部署的爬虫项目的python类

Python简易爬虫+图形化界面

python爬虫beautifulsoup查找定位Select用法

Python爬虫 - scrapy

文山羊