golang爬取豆瓣电影TOP250(下载图片)

cleanerxiaoqiang

2019-07-01

打开豆瓣电影TOP250，打算爬取电影的四个信息，豆瓣排名，图片，评分，电影名。

golang爬取豆瓣电影TOP250(下载图片)
所以先定义个结构体

type Movie struct {
    Num     string
    Url      string
    Star     string
    Name     string

}

注意豆瓣电影的网址，是有规律的：

golang爬取豆瓣电影TOP250(下载图片)

每一页start分别为0,25,50.....
所以在主函数里面加个循环：

func main(){
    t1 := time.Now()
    for i := 0; i < 11; i++ {
        url := fmt.Sprintf("https://movie.douban.com/top250?start=%v&filter=", i*25)
        fmt.Printf("整在爬取第%v页",i+1)
        res := getResponse(url)//定义的获取html的函数
        DownloadImg(res)// 下载图片的函数
    }
    elapsed := time.Since(t1)
    fmt.Println("总共用时: ", elapsed)
}

爬虫第一步，获取html网页进行解析,安装goquery

gopm -g -v github.com/PuerkitoBio/goquery

func getResponse(url string)  []Movie{ 
    content,err:= goquery.NewDocument(url)
    if err != nil{
        panic(err)
    }
    return ParseResponse(content)//
}

func ParseResponse(doc *goquery.Document) (pages []Movie) {
    doc.Find("div.item").Each(func(i int, s *goquery.Selection) {
        img,_ :=s.Find("img").Attr("src")
        num:=s.Find("em").Text()
        star:=s.Find("span.rating_num").Text()
        name,_:=s.Find("img").Attr("alt")
        pages = append(pages, Movie{
            Num: num,
            Url:  img,
            Star: star,
            Name: name,
        })
    })
    return pages
}

这里把ParseResponse函数作为返回值，把处理后的Movie切片返回。处理网页用到goquery的Find匹配网页元素。

golang爬取豆瓣电影TOP250(下载图片)

查看网页的元素代码，看到这几个需要获取的信息都在<div class="item>中，所以先循环获取item:

doc.Find("div.item").Each(func(i int, s *goquery.Selection)

打印出来大概就是这样的：

[.....{26 https://img3.doubanio.com/vie... 9.2 乱世佳人} {27 https://img3.doubanio.com/vie... 9.1 蝙蝠侠：黑暗骑士}....]

最后一步下载图片，把图片url和图片名称传给GetImg方法。

func GetImg(url string , name string) {
    res, _ := http.Get(url)
    file_name := imgpath + "\\" + name + ".jpg" //拼接图片路径
    file, _ := os.Create(file_name)
    io.Copy(file, res.Body)
}

golang爬取豆瓣电影TOP250(下载图片)
网速比较慢，测了几次都是10s多一点。

golang爬取豆瓣电影TOP250(下载图片)

完整代码点这里

参考文档：
golang goquery selector(选择器) 示例大全
 Golang爬虫爬取豆瓣电影Top250

cleanerxiaoqiang

0 关注 0 粉丝 0 动态

相关推荐

基于Python豆瓣自动化测试【2】

承接上一篇中最后的测试结果图，使用过的pytest-html 插件原生态的报告的话。可能会发现内容样式都有些不同。其实是做了些扩展相关设置所呈现的效果，当然可以定制的更深度一些，更加中文、本地化，又或者根据公司需要进行定向研发。这篇就如何优化、定制pyt

坚持是一种品质 2020-05-29

python爬虫-静态爬取豆瓣评论

我们写代码的步骤是第一步：判断是否设置反爬机制，第二步：先爬取整个网页，第三步：再提取想要的内容，第四步：最后保存到本地。明白了我们要做什么再一步一步的去做。返回Response对象，其存储了服务器响应的内容。打印出响应的状态码，如果为418则是设置了反爬

文山羊 2020-05-19

python爬取豆瓣影评，根据关键词生成词云图

爬取豆瓣评论是需要用户登录的，所以需要先拿到登陆相关 cookie。进入浏览器登陆豆瓣之后，按下 F12 ，拿到请求头里的 cookie 与 user-agent 的数据，保持登陆状态不要退出。简单获取《豪斯医生》的某一页影评，经过分析影评的 html 数

sunnyhappy0 2020-04-20

Python爬取网络数据——豆瓣评论

豆瓣这个网站做网络爬虫的例子教学是极好的，我这个入门者今天也来分享下自己的第一个爬虫例程~ . 1）urllib内建模块，尤其是urllib.request，可以方便的抓取网页内容。2）Requests第三方库，逐渐取代了urllib.request，适合

katyusha 2020-03-06

python获取豆瓣电影TOP250的所有电影的相关信息

说明：我才接触网络爬虫，在看《python网络爬虫入门到实践》一书时，作者写了个实例获取豆瓣电影TOP250的所有电影的电影名称，我在此基础上进行了更进一步的改进，获取了所有的相关信息，并用表格将这些信息保存下来。我们需要用到BeautifulSoup的f

typhoonpython 2020-02-16

使用scrapy编写爬虫：爬取豆瓣Top250读书的评论

以前我们写爬虫，要导入和操作不同的模块，比如requests模块、gevent库、csv模块等。而在Scrapy里，你不需要这么做，因为很多爬虫需要涉及的功能，比如麻烦的异步，在Scrapy框架都自动实现了。我们之前编写爬虫的方式，相当于在一个个地在拼零件

andrewwf 2020-01-31

【科创人独家】爱因互动洪强宁：参与创业≠创业，融到钱的那晚我失眠了

我工作这14年间，参与的全都是创业项目，但进入豆瓣后才了解到以硅谷范儿运作的方式，平等、开放。在豆瓣不仅技术提升很大，还很系统地学习了一家企业是如何运作的，之前供职过的企业相对传统一些，接触到的大都是自己眼前一小摊事儿。

ilovefrog 2019-12-27

爬虫练手项目：获取豆瓣评分最高的电影并下载

上篇博文我们学习了Python爬虫的四大库urllib ，requests ，BeautifulSoup以及selenium爬虫常用库介绍。sheet = book.add_sheet('豆瓣电影Top250', cell_overwrite_ok

hilary0 2019-12-02

世界顶级程序员的书架上都有哪些书？

在很早之前就想整理一份来自经验丰富的顶级程序员推荐阅读的书籍清单，全栈工程师Dmitry Shvetsov整理了Bob叔以及Jeff Atwood and DHH等世界知名程序员曾经在博客中推荐过的书单，下面我们就一起来看看深受大神们青睐的书籍都是哪些？《

不亦快斋 2019-07-18

Python 爬取豆瓣TOP250实战

学习爬虫之路，必经的一个小项目就是爬取豆瓣的TOP250了，首先我们进入TOP250的界面看看。可以看到每部电影都有比较全面的简介。其中包括电影名、导演、评分等。接下来，我们就爬取这些数据，并将这些数据制成EXCEL表格方便查看。首先，我们用request

wyqwilliam 2019-10-25

详解python 模拟豆瓣登录（豆瓣6.0）

最近在学习python爬虫，看到网上有很多关于模拟豆瓣登录的例子，随意找了一个试了下，发现不能运行，对比了一下代码和豆瓣网站，发现原来是豆瓣网站做了修改，增加了反爬措施。用创建好的session对象携带账号，密码去发送post请求。由于改版后的豆瓣返回的是

xiaobote 2019-04-18

微信小程序访问豆瓣电影api的实现方法

解决办法总是有的！

Chona 2019-03-31

世界顶级的程序员们告诉你：这些书都是你应该读的

在很早之前就想整理一份来自经验丰富的***程序员推荐阅读的书籍清单，全栈工程师Dmitry Shvetsov整理了Bob叔以及Jeff Atwood and DHH等世界知名程序员曾经在博客中推荐过的书单，下面我们就一起来看看深受大神们青睐的书籍都是哪些

yueloveme 2019-03-25

豆瓣的基础架构

豆瓣整个基础架构可以粗略的分为在线和离线两大块。在线的部分和大部分网站类似：前面用LVS做HA，用Nginx做反向代理，形成负载均衡的一层；应用层主要是做运算，将运算结果返回给前面的用户，DAE平台是这两年建起来的，现在大部分豆瓣的应用基本都跑在DAE上

WhatWhyHow 2015-01-14

豆瓣的系统架构

关于豆瓣的系统架构图，首先我们在Webserver上做个划分，把网站内容分为动态内容和静态内容。在豆瓣上所有的html都是动态内容，图片都是静态内容。分成两个Web服务可以做不同的调优。对动态内容，我们用的是nginx和lighttpd的混合，nginx做

huiyi00 2011-04-01

chrome插件技术开发总结

包括豆瓣精灵和RssSnack两个插件，其中前者一直有在慢慢更新，而后者是在一次大学同学技术讨论RSS相关时做的一个快速DEMO来谈插件实现的技术可能性，暂无更新了，不过这个插件使用到了jqueryUI和定制chrome插件鼠标右键的功能，具有一定的参考价

故纸堆 2010-12-27

[转]浅析豆瓣的 Google Analytics 应用

豆瓣从今年开始也加入GoogleAnalytics的统计阵营。让我们通过它加载的GoogleAnalytics源码，简单分析一下它都是怎么应用的。默认的统计函数，pageTracker 也被豆瓣改成了 _ga ，这个只是名称定义上的区别，并没有什么实质的改

ibatsiSpring 2010-02-04

微信小程序访问豆瓣电影api

解决微信小程序调豆瓣电影（小说）api时显示400、403问题以获取豆瓣热映电影为例：请求接口：我这里使用的是uni-app框架。原因是豆瓣那边设置了对小程序的访问权限解决办法总是有的！似乎可以了~我们来看看现在获取到了data没有

hengqiaqia 2019-07-01

23个Python爬虫开源项目代码，包含微信、淘宝、豆瓣、知乎、微博等

今天为大家整理了23个Python爬虫项目。整理的原因是，爬虫入门简单快速，也非常适合新入门的小伙伴培养信心，所有链接指向GitHub，微信不能直接打开，老规矩，可以用电脑打开。代码获取新浪微博Cookie进行登录，可通过多账号登录来防止新浪的反扒。主要使

刘康康 2019-07-01

Python爬虫框架Scrapy入门与实践之爬取豆瓣电影Top250榜单

前言爬虫就是请求网站并提取数据的自动化程序，其中请求，提取，自动化是爬虫的关键。Python作为一款出色的胶水语言自然成为了很多爬虫爱好者的首选，而使用Python开发的爬虫框架Scrapy当属目前最热门的解决方案之一。本文记录了目前网络上比较经典的Scr

cbyacq 2019-07-01

cleanerxiaoqiang

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号