python爬虫40行代码爬取笔趣看全部小说（文末附赠教程分享）

赵小文wencie

2019-02-24

需求分析

”笔趣看“ 是一个盗版小说网站，这里有各大知名小说网站的小说，更新速度略慢于正版网站。但是该网站只支持在线浏览，不支持小说下载，对于想要下载下来以防断网或者网速不好时也能看的童鞋来说不太友好。因此，本次练习将爬取该网站所有小说。PS：本次练习仅为学习交流，请各位童鞋支持正版。

爬取目标

本次练习将爬取 “笔趣看” 你想要的任何小说。

准备工作

本次练习将使用 requests 库（python使用最多的库）作者 kennethreitz 今年最新力作 request_html 库。集网页抓取与解析于一体。想了解更多的可以关注我，我将准备将相关文档翻译并与现有库进行对比。

请确保电脑安装了 python3.6 和requests_html。（具体安装方法请自行百度）

爬取分析

我们先随便找一本小说的第一章内容进行分析。

python爬虫40行代码爬取笔趣看全部小说（文末附赠教程分享）

第一章内容

用代码获取全部文本信息：from requests_html import HTMLSessionurl = '()res = session.get(url)content = res.html.textprint(content)

打印内容如下：

python爬虫40行代码爬取笔趣看全部小说（文末附赠教程分享）

网页内容

可以看到我们很轻松就获取到所有文本信息。但是有很多信息是我们不需要的，所以我们需要更精确的定位，获取指定信息。

通过谷歌浏览器的开发者工具（按F12）可以发现小说正文全在标签下的文本信息中。因此我们可以通过res.html.find('#content')来定位（定位方法与 jQuery 选择器一致，对 jQuery 不太熟悉的朋友可以通过‘菜鸟教程’大致了解下），这里我们选择的是通过 id 定位，当然也可以通过 class 定位（res.html.find('.showtxt')），但是 html 中 id 是唯一的，class 不一定是唯一的，有时会造成定位不准。有 id 建议用 id。改进后的代码如下：from requests_html import HTMLSessionurl = '()res = session.get(url)targets = res.html.find('#content')content = targets[0].textprint(content)

打印结果为：

python爬虫40行代码爬取笔趣看全部小说（文末附赠教程分享）

改进后的结果

可以看到我们获取的全是小说正文内容。下面让我们回到该小说主页。

python爬虫40行代码爬取笔趣看全部小说（文末附赠教程分享）

小说主页

可以看到前面12章全是最新章节，不是我们需要的，后面的正问卷才是所有章节信息。

下面我们来分析该页面信息：

python爬虫40行代码爬取笔趣看全部小说（文末附赠教程分享）

章节信息

最后，想学习Python的小伙伴们！

请关注+私信回复：“学习”就可以拿到一份我为大家准备的Python学习资料！

python爬虫40行代码爬取笔趣看全部小说（文末附赠教程分享）

pytyhon学习资料

python爬虫40行代码爬取笔趣看全部小说（文末附赠教程分享）

python学习资料

小说 python python爬虫文学定位教程

赵小文wencie

0 关注 0 粉丝 0 动态

相关推荐

如何用python爬虫从爬取一章小说到爬取全站小说

对爬虫进行重构需要爬取很多章小说，最笨的方法是直接使用 for 循环。爬取索引页需要爬取所有的章节，只要获取每一章的网址就行了。

四叶草 2020-03-28

spider爬虫练习，爬取顶点小说网，小说内容。

由上面可得出规律，每点一次下一章，url后面的数字就会自动加1。使用for循环，传入一个参数，没循环一次url后面的数字就会自动加1，把他放到一个新的url_list列表里面。这里用到了requests库，需要传入一个url参数，返回html对象。for循

HSdiana 2020-02-14

小说搜索站快速搭建：1.架构图

搜索聚合源站搜索。仅展示交流使用：免费小说阅读网

JAVA飘香 2019-11-19

读取本地HTML的小说阅读器应用源码项目

该源码是一个不错的读取本地HTML的小说阅读器，读取本地HTML的小说阅读器，并且源码也比较简单的，非常适合我们的新手朋友拿来学习，有兴趣的朋友研究下。

woyanyouxin 2015-04-27

第一个爬虫程序

最近热播的电视剧《全职高手》是由小说改编而成的，爬取小说当做练习吧~~本文练习爬取第一章的章节标题和章节内容，并且保存到本地文件中。创建完成后目录结构跟下面应该是一样的，在 spiders 目录下新建 novel.py 文件，待会咱就在这个文件中写爬虫程

paleyellow 2019-09-07

读取本地HTML的小说阅读器应用源码项目

该源码是一个不错的读取本地HTML的小说阅读器，读取本地HTML的小说阅读器，并且源码也比较简单的，非常适合我们的新手朋友拿来学习，有兴趣的朋友研究下。

一只刚刚上路的猿 2015-04-27

史上最简单的python算法入门书，像看小说一样轻松记住你敢信？

算法是计算机科学领域最重要的基石之一，同时也是出了名地难学。最出名的一本书莫过于算法导论了。但是，这本非常非常出名的大头书，真的是谁看谁知道。看了之后都有点怀疑人生，一大批人也因此从入门到放弃。原因还是算法工程师的待遇实在是太好了，做技术岗位的都能达到月薪

duangduangdada 2019-03-23

担心没有网络小说看？用Python脚本轻松爬取起点网小说

前言对于小说很多人都不陌生，也会经常在网上看小说，不过有时候经常需要付费，今天小编就教你如何用Python下载起点小说网站！

党薇 2019-01-07

Python项目：结合Django和爬虫开发小说网站，免安装，无广告

前言很多喜欢看小说的小伙伴都是是两袖清风的学生党，沉迷小说，不能自拔。奈何囊中甚是羞涩，没有money去看正版小说，但是往往这些免费的小说网站或者小说软件，随之而来的是大量的广告。Python嘛，既能爬取网站小说，又能开发网站，那么两者结合是不是相当的ni

CycloneKid 2018-11-26

python项目实战:自制小说GUI界面下载器

相信大家都看小说的把,今天为大家介绍一个利用Python制作的小说GUI界面下载器,你只要搜索相应的小说名称和章节即可下载,是一个很方便的程序,你也可以打包成EXE文件变成桌面应用程序就可以了。学习从来不是一个人的事情，要有个相互监督的伙伴，工作需要学习p

IndustBee 2019-04-23

AI小说家不是人！语言模型竟能续写《红楼梦》？

自然语言处理技术在2018年取得重大成就。算法模型界新的预训练自然语言处理模型在情绪分析、回答问题等一系列任务中取得了巨大突破。2018年先后出现了像ELMo、BERT、BigBird这样的自然语言模型。究其二者的最大差异，GPT用的是单向语言模型，而BE

87173653 2019-04-12

Python实现爬取逐浪小说的方法

本文实例讲述了Python实现爬取逐浪小说的方法。分享给大家供大家参考。最近在学习Python的爬虫，受此启发，突然就想到写一个爬取小说内容的脚本玩玩。具体实现功能如下：输入小说目录页的url之后，脚本会自动分析目录页，提取小说的章节名和章节链接地址。现阶

pythonjw 2015-07-07

AI创作了史上第一部小说，读完之后我懵了

小说家 Ross Goodwin 效仿大文豪 Jack Kerouac 进行了一次横穿美国的公路旅行，并创作了小说《The Road》，但主笔并不是他本人，而是 AI。结果却并不是非常令人满意，Goodwin 表示，AI 要写出人类水准的小说，还有很长的路

AIBigDataWH 2018-11-09

小说领域，如何利用活动裂变快速涨粉

酒香还怕巷子深，公众号没有粉丝，内容再优质也是“杨白劳”。早期的涨粉模式：产生优质内容，用户分享、转发，靠着之前微信用户自然增长而带来粉丝数增长。所以想要大量获取粉丝并实现爆发性增长，还是需要借助一些工具的。

数据分析侠 2018-04-02

安智发布最强网络小说APP榜谁才是中华最强书库？

中国内地网络文学诞生近 20 年中，一大批网络作家“发家致富”。现如今随着智能手机的普及，当年的安妮宝贝、李寻欢再到现在的唐家七少、天蚕土豆作家的战场也逐渐从书店发展到手机里的阅读APP中。但因为版权的原因，各平台对小说收录的情况有所不同，所以对于爱看网络

科技蟹 2018-02-11

十大网络小说APP大乱斗谁才是中华最强书库？

中国内地网络文学诞生近 20 年中，一大批网络作家“发家致富”。现如今随着智能手机的普及，当年的安妮宝贝、李寻欢再到现在的唐家七少、天蚕土豆作家的战场也逐渐从书店发展到手机里的阅读APP中。但因为版权的原因，各平台对小说收录的情况有所不同，所以对于爱看网络

科技蟹 2018-02-11

追书神器API

由于自己喜欢看小说，有的时候不方便手机看的时候希望在电脑上面看，但很多网站有广告啊，于是封装了套手机版的追书神器API

迷思 2018-02-05

20194302实验四 Python综合实践

笔趣看是一个盗版小说网站，这里有很多起点中文网的小说，该网站小说的更新速度稍滞后于起点中文网正版小说的更新速度。并且该网站只支持在线浏览，不支持小说打包下载。因此，本次实战就是从该网站爬取并保存一本名为《一念永恒》的小说，该小说是耳根已完结的一部玄幻小说。

dadaooxx 2020-06-14

使用Express开发小说API接口服务1.0（三）

之前发现追书神器API详情页竟然没有下一章和上一章的返回值，只能自己动手封装一下。app.js 增加错误处理// catch 404 and forward to error handler. // set locals, only providing e

paypalmts 2019-07-01

使用Express开发小说API接口服务1.0(二)

之前完成了首页和搜索的接口，现在就开始写剩下的接口。获取小说源因为追书神器正版源是收费加密的，所以只能使用盗版源，所以要封装一个获取小说源的接口。修改app.js 文件路由中间件配置，增加一个路由。app.use;在routes下面新建 source.js

stdjkdblom 2019-07-01

赵小文wencie

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号