使用scrapy抓取Youtube播放页数据

Catastrophe

2019-06-30

可参看Knowsmore

抓取Youtube播放页数据的前提是scrapy部署的机器可以正常访问Youtube网站

抓取的原理是读取Youtube播放页桌面版网页源代码中的全局变量： ytInitialData

存取到Mongo中的数据如下：

{
    "title" : "20130410 锵锵三人行 陈平原谈中国教育问题",
    "view_count" : "12,407 views"
}

代码如下：

# -*- coding: utf-8 -*-
import scrapy
import re
import json
from scrapy import Selector
from knowsmore.items import YoutubeItem
from ..common import *

class YoutubeSpider(scrapy.Spider):
    custom_settings = {
        'DOWNLOADER_MIDDLEWARES' : {
        }
    }

    name = 'youtube'
    allowed_domains = ['www.youtube.com']
    start_urls = ['https://www.youtube.com/watch?v=3vkqOdMBP48']

    def parse(self, response):
        ytInitialData = r1(r'ytInitialData"\] = (.*?)}};', response.body)

        if ytInitialData:
            ytInitialData = '%s}}' % ytInitialData
            ytInitialDataObj = json.loads(ytInitialData)
            
            videoInfo = ytInitialDataObj['contents']['twoColumnWatchNextResults']['results']['results']['contents'][0]['videoPrimaryInfoRenderer']
            Item = YoutubeItem(
                title = videoInfo['title']['simpleText'].encode('utf-8'),
                view_count = videoInfo['viewCount']['videoViewCountRenderer']['viewCount']['simpleText']
            )
            yield Item

Catastrophe

0 关注 0 粉丝 0 动态

相关推荐

将Youtube视频插入Github Markdown文本中

Github的ReadMe文件暂时不支持Youtube视频文件，所以目前的做法都是用一个图片封面，它的链接??<a href="{video-url}" title="Link Title"><im

Hesland 2020-04-20

一起赚美元 | 如何从Youtube、Instagram视频下载器每月赚取12000美元

ahsxsk的学习之路 2020-01-29

「简单实战」YouTube IFrame Player API 的使用

业务需求需要在自己的网页上嵌入油管上的视频，所以去踩了油管 IFrame Player API 的坑。其实和大多数国内视频网站的 ifram Embed 方式是相似，比如说爱奇艺、腾讯视频、优酷等。在这些视频网站上你会发现都有分享功能，其中有一项就是通用

ForEachkaka 2019-11-04

看一次Youtube，有多少AI算法为你服务？

每个月，超过19亿的用户登录YouTube。每天，用户在Youtube上观看的视频超过10亿小时。仅在19年第一季度，就有830万视频从YouTube上被删除，其中76%的视频是由AI分类器自动识别的。YouTube如此重视删除劣质内容的原因，一是来自品牌

zhbbupt 2019-09-23

害怕被攻击？YouTube 干脆禁掉了黑客教学视频

近日，YouTube 冻结了 Kody Kinzie 在 Null Byte 频道下的 Cyber Weapons Lab 栏目，其理由是该栏目违反了 YouTube 社区准则中禁止传播黑客教学内容的条例，向用户展示了如何绕过安全的计算机系统。这一消息在网

bjzhangfei 2019-07-05

Mac电脑下载YouTube视频的方法

Windows上面下载YouTube视频的软件有很多，今天我们来谈谈Mac电脑上面的软件。虽然Mac系统依然很小众，但是苹果也是全球第4大PC厂商，使用Mac电脑的人也不少了。下面我们一起来看一下吧！客户端软件的特点是功能相对比较强大，但是可能会占用比较大

vitavae 2019-07-01

【技术性】如何快速上手知识概念

我发现自己特别懒，碰到不懂的concepts未必能有好奇心马上去搜索和理解它，这样长期以往会造成阻碍，譬如做search却不理解retrieval。首先是概念，先百度之，百度不行就优先youtube之，实在不行才看wikipedia，因为我总觉得wiki看

ksjlhy 2019-06-29

带你重读Youtube深度学习推荐系统论文，惊为神文

本文约5400字，建议阅读10+分钟。本以为毫不起眼的地方，也藏着Youtube工程师宝贵的工程经验。一是工程导向的；二是阿里、facebook、google等一线互联网公司出品的；三是前沿或者经典的。第一遍读这篇论文的时候，我想所有人都是冲着算法的架构去

moshlwx 2019-02-03

原来YouTube推荐系统的内幕是这样……

为什么YouTube平台上会源源不断产生优质视频和优质广告，真的只是偶然吗？为什么用户一上youTube就黏住了，这背后到底下了多大的功夫研究人性的细节？如此海量的数据，如何精准地推送给每一个恰当的人？这篇文章是继我们上一篇《可怕！YouTube算法如何让

simplehap 2017-09-01

可怕！YouTube算法如何让小孩沉迷到不可自

每个人小时候都渴望拥有力量。可这对于蹒跚学步的孩子们来说，太不现实了，毕竟他们什么力量都没有。因此，他们总要乱发脾气、无理取闹。(不，我要的是这个香蕉，不是那个……它们看起来是一样，但你刚刚剥皮的那个我就是不要。这种倾向同样也能用来解释YouTube视频在

hanyanqing 2017-08-28

Youtube视频推荐算法的前世今生

第一阶段，基于User-Video图游历算法，2008年[1]。在这个阶段，YouTube认为应该给用户推荐曾经观看过视频的同类视频，或者说拥有同一标签的视频。然而此时，YouTube的视频已是数千万量级，拥有标签的部分却非常小，所以如何有效的扩大视频标签

yimixgg 2018-08-14

主要推荐系统算法总结及Youtube深度学习推荐算法实例概括

现如今，许多公司使用大数据来做超级相关推荐，并以此来增加收益。在海量推荐算法中，数据科学家需要根据商业限制以及需求来选择最佳算法。为使其简单化，Statsbot 团队为现有的主要推荐系统算法准备了一份概述。协同过滤及其变式是最常用的推荐算法之一。协同过滤有

dbhllnr 2017-07-09

YouTube上最受欢迎的十大机器学习视频（最新）

虽然 YouTube 有很多不错的机器学习视频，但是很难搞清楚是否值得一看，何况每分钟上传的视频长达 300 小时。在本文中，我们整理了观看量最高的十大机器学习视频。另外，我们也添加了 4 个最受欢迎的相关视频列表。这份顶级机器学习视频排名包括斯坦福、加

qinrui 2017-05-04

谷歌为YouTube添加新功能：利用机器学习自动生成音效字幕

音频对于我们对世界的感知的影响的巨大自然不言而喻。语音显然是人们最熟悉的通信方式之一，但环境声音也能传达很多重要的信息。我们可以本能地响应这些背景声音所创造的语境，比如被突然出现的喧闹而吓到、使用音乐作为一种叙述元素或者在情景喜剧中将笑声用作一种观众提示。

Sigh 2017-03-24

这才是谷歌、Twitch、YouTube等巨头公司如此青睐HTML5的原因？

如今越来越多的人投入到HTML5开发行列，这么多学习的人市场有没有饱和，会不会学完之后不好找工作呢？对于这样的疑问，我想很多同学都会有疑问，那今天就说说，HTML5的就业问题。HTML5不仅在PC端，更是在移动端上也有广泛的应用。HTML5全栈开发技术降低

YannZoe 2018-09-17

Google的四大公司，安卓，YouTube，搜索地图和广告

Google不只是一个搜索引擎。它的总公司是Alphabet，事实上Google拥有多家公司。Google拥有200多家公司，其中包括机器人，制图，视频广播，电讯，奖学金和烟雾报警器。在收购不能增加收入的情况下，Google倾向于出售该公司。我们已经选择了

windgoogle 2017-08-18

YouTube测试新版HTML 5播放器功能已接近flash版

YouTube最近改进了其HTML 5播放器，目前其可提供的功能几乎可以跟flash播放器所媲美了。现在你可以在HTML 5版的播放器里打开注释和字幕，通过右键菜单你还可以：。如果你使用nightly的Firefox或Chrome Dev分支的话，在You

knijiokm 2011-11-22

使用Chrome扩展将YouTube播放器控件添加到Linux桌面

一个我怀念的 Unity 功能是在 Web 浏览器中访问 YouTube 等网站时在 Ubuntu 声音指示器中自动出现播放器控件，因此你可以直接从顶部栏暂停或停止视频，以及浏览视频/歌曲信息和预览。这个 Unity 功能已经消失很久了，但我正在为 Gno

新地址zhanglin 2018-10-15

Linux下本地播放Youtube客户端Minitube 安装

Minitube 是一款Linux下本地播放Youtube的客户端，支持Windows和MacOS。可以播放、下载Youtube视频。Minitube 1.4于今日发布，该版本增加了对Youtube 频道支持，同时修订了存在的一些Bug。

linuxisperfect 2011-02-09

如何破解YouTube视频推荐算法

如果你是某个发行渠道的内容工作者，那么内容的成败就取决于发行机制的运转逻辑。比如说，你制作了一档电视节目，你很想它能火起来，那么你就得知道该在哪里切入广告，怎么宣传节目，上哪个频道播放，所选的频道能被多少家庭收看，等等，诸如此类。YouTube没有把他们算

tracy 2016-12-09

Catastrophe

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号