Python 网页抓取

kevinweijc

2018-04-08

import json
import os
import requests
import bs4
from lxml import etree

# 模拟真实浏览器标头
header = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 '
                  '(KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36'
}

# 获取专辑页数
def get_album(url):
    res = requests.get(url, headers=header)
    soup = bs4.BeautifulSoup(res.text, "html.parser")
    # pagingBar_page为开发者模式下查看到的页码标识
    elems = soup.select('a[class^="pagingBar_page"]')
    print("本频道共有{}个页面".format(len(elems)-1))
    for i in elems:
        if i.text == "下一页":
            continue
        print("正在下载第{}/{}个页面".format(i.text, len(elems)-1))

        if i.text != "1":
            url = "http://www.ximalaya.com" + i.attrs["href"]

        get_url(url)

def get_url(url):
    res = requests.get(url, headers=header)
    soup = bs4.BeautifulSoup(res.text, "html.parser")
    # sound_id为开发者模式下查看到的页码标识
    elems = soup.select('li[sound_id]')

    for i in range(len(elems)):
        murl = 'http://www.ximalaya.com/tracks/{}.json'.format(elems[i].attrs["sound_id"])
        html = requests.get(murl, headers=header).text
        dic = json.loads(html)
        try:
            print("正在下载第{}/{}文件,文件名{}:{}。".format(i+1, len(elems),
                                                     elems[i].attrs["sound_id"],dic["title"]))
            get_m4a(dic["play_path"], elems[i].attrs["sound_id"])
        except:
            print("下载{}/{}文件,文件名{}:{}时失败。".format(i + 1, len(elems),
                                                     elems[i].attrs["sound_id"], dic["title"]))


def get_m4a(url, id):
    folder = "郭德纲相声"    # 自定义文件夹名称
    res = requests.get(url)
    file = open(os.path.join(folder, os.path.basename(id)), 'wb')
    for chunk in res.iter_content(100000):
        file.write(chunk)
    file.close()


if __name__ == '__main__':
    url = "http://www.ximalaya.com/1000202/album/2667276/"  # 专辑地址
    get_album(url)

网页抓取 url python

kevinweijc

0 关注 0 粉丝 0 动态

相关推荐

如何利用Scrapy爬虫框架抓取网页全部文章信息（上篇）

首先我们理一下爬取思路，大致思想是：当获取到第一个页面的URL之后，尔后将第二页的URL发送给Scrapy，让Scrapy去自动下载该网页的信息，之后通过第二页的URL继续获取第三页的URL，由于每一页的网页结构是一致的，所以通过这种方式如此反复进行迭代，

andrewwf 2020-11-11

认识网页抓取：一切都交给AI，还是加点“人情味”？

“互联网上有很多数据”，这么说太保守了。事实上，2020年，“数字宇宙”预计将拥有40万亿字节或40泽字节的信息，一个泽字节拥有的数据足以填满大约五分之一曼哈顿大小的数据中心。网络机器人能以令人难以置信的速度抓取网页，提取所需的相关信息。但很遗憾，随着网络

AI启蒙研究院 2020-10-23

认识网页抓取：一切都交给AI，还是加点“人情味”？

本文转载自公众号“读芯术”。可供分析的信息如此之多，将收集数据的任务留给AI就显得合情合理了。网络机器人能以令人难以置信的速度抓取网页，提取所需的相关信息。但很遗憾，随着网络人工智能日益普及，网络机器人还是逐渐被污名化了。此外，某些web用户以不道德的方式

kkkmmmjjjj 2020-10-22

手把手教你使用Python抓取并存储网页数据！

爬虫是Python的一个重要的应用，使用Python爬虫我们可以轻松的从互联网中抓取我们想要的数据，本文将基于爬取B站视频热搜榜单数据并存储为例，详细介绍Python爬虫的基本流程。如果你还在入门爬虫阶段或者不清楚爬虫的具体工作流程，那么应该仔细阅读本文!

huang00 2020-10-12

python+selenium操作chrome浏览器抓取网页解决方案

tm_price = t_selector.xpath(‘//*[@id="J_StrPriceModBox"]/dd/span/text()‘).extract_first(). next=%2Fexplore"). bro

Safari浏览器 2020-01-18

盘点用Java抓取HTTP服务器和FTP服务器的网页数据或图片等数据的实用技巧

在信息时代，常常需要通过编程的方式来灵活整理各种网络数据。首先涉及到如何方便准确地抓取网络数据。下面盘点用Java程序来访问HTTP服务器以及FTP服务器的各种实用技巧。主要介绍了Java Socket、java.net.URL类、Selenuim软件包、

登峰小蚁 2020-01-11

Python 抓取网页tag操作

soup.find_all，返回符合条件的所有标签，查找不到则返回[]，可以传递标签名，标签属性，关键字参数，函数，True等。tag[‘class‘] ，获取标签的class属性值，list类型，例如：[‘orange‘, ‘login‘]

chouliqingke 2019-12-17

htmlparser网页抓取

logger.info("分析网站首页的新闻列表，内容为所有网页新闻地址的HTML内容。

RedGuyanluo 2016-02-03

定向抓取漫谈

网络爬虫又称为网络蜘蛛是一段计算机程序，它从互联网上按照一定的逻辑和算法抓取和下载互联网的网页,是搜索引擎的一个重要组成部分。一般的爬虫从一部分starturl开始，按照一定的策略开始爬取，爬取到的新的url在放入到爬取队列之中，然后进行新一轮的爬取，直到

haocxy 2013-12-12

selenium驱动firefox抓取网页数据，在firefox内存优化和速度优化方面的努力

使用默认frofile，启动firefox 内存600M，几个小时之后彪到一个G。目前查到的优化项，正在努力中&尝试中......，各种尝试如果都不行，目前想到的终极解决方案：爬取一定量的页面之后关闭当前线程对应的firefox窗口，开启新窗口！

Batkid0 2015-03-04

Scrapy抓取网页时出现CRC check failed 0x471e6e9a != 0x7c07b839L的错误

这个方法不一定有效，具体根据服务器的返回情况。如果服务器忽略此属性则此方法无效。

javaraylu 2012-06-19

网页数据抓取

这招没有过多久，人们就开始模仿浏览器或者google、baidu这样的爬虫。但是最后自己又摸索出来一条路子，就是用按键精灵控制360定时删除cookie。

YichengGu 2010-12-21

搜索引擎蜘蛛爬虫原理

网络爬虫是一个自动提取网页的程序，它为搜索引擎从Internet网上下载网页，是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚

greatking 2010-07-22

Python 抓取网页乱码原因分析

在用 python2 抓取网页的时候，经常会遇到抓下来的内容显示出来是乱码。发生这种情况的最大可能性就是编码问题：运行环境的字符编码和网页的字符编码不一致。因为多数网站采用 utf-8 编码，而不少人又是用 windows，所有这种情况相当常见。如果你发

小方哥哥 2019-07-01

搜索引擎蜘蛛算法与蜘蛛程序构架

如果网站管理员发现某个蜘蛛有问题，就通过其标识来和其所有者联系。网络蜘蛛在下载网页的时候，会去识别网页的HTML代码，在其代码的部分，会有META标识。通过这些标识，可以告诉网络蜘蛛本网页是否需要被抓取，还可以告诉网络蜘蛛本网页中的链接是否需要被继续跟踪。

aikaibo 2013-04-05

Python 网页抓取

print("正在下载第{}/{}文件,文件名{}:{}。

bcbeer 2018-04-08

网络爬虫定向抓取漫谈

网络爬虫又称为网络蜘蛛是一段计算机程序，它从互联网上按照一定的逻辑和算法抓取和下载互联网的网页,是搜索引擎的一个重要组成部分。一般的爬虫从一部分start url开始，按照一定的策略开始爬取，爬取到的新的url在放入到爬取队列之中，然后进行新一轮的爬取，直

fangjack 2012-02-01

用phantomjs和shell写抓取网页图片的脚本

最近自己写程序的时候经常素材不够用，想去网上扒现成的图片，要扒很多的图片，这种重复劳动让我又想偷懒看能不能用程序自动化实现。找到了比较适合我用的两个工具—— phantomjs 和 shell 。phantomjs http://phantomjs.org

凌云客 2019-06-27

网页异步ajax数据抓取几种解决方案

使用Casperjs加载页面，然后保存文件，再使用你熟练语言解析，你也可以少去保存，直接解析.网页上通过ajax异步加载的数据有什么办法抓取到吗？

ajaxhe 2014-10-11

python3使用urllib抓取用户名密码登陆的网页

values = {'username': username, 'password': password}. with open('test.txt', 'w+', encoding='utf-8') as f:. #cookie_jar.save(ign

zhongranxu 2019-06-26

kevinweijc

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号