Python使用urllib2模块抓取HTML页面资源的实例分享

luoxinyurose

2016-05-03

先把要抓取的网络地址列在单独的list文件中

//www.jb51.net/article/83440.html
//www.jb51.net/article/83437.html
//www.jb51.net/article/83430.html
//www.jb51.net/article/83449.html

然后我们来看程序操作，代码如下：

#!/usr/bin/python

import os
import sys
import urllib2
import re

def Cdown_data(fileurl, fpath, dpath):
 if not os.path.exists(dpath):
  os.makedirs(dpath)
 try:
  getfile = urllib2.urlopen(fileurl) 
  data = getfile.read()
  f = open(fpath, 'w')
  f.write(data)
  f.close()
 except:
 print 

with open('u1.list') as lines:
 for line in lines:
  URI = line.strip()
  if '?' and '%' in URI:
   continue
 elif URI.count('/') == 2:
   continue
  elif URI.count('/') > 2:
   #print URI,URI.count('/')
  try:
    dirpath = URI.rpartition('/')[0].split('//')[1]
    #filepath = URI.split('//')[1].split('/')[1]
    filepath = URI.split('//')[1]
   if filepath:
     print URI,filepath,dirpath
     Cdown_data(URI, filepath, dirpath)
   except:
    print URI,'error'

uri python实例 urllib2 python

luoxinyurose

0 关注 0 粉丝 0 动态

相关推荐

nginx 之proxy_pass

在nginx中配置proxy_pass代理转发时，如果在proxy_pass后面加不加路径是有很大区别的，具体情况我们来做几个测试。实际转发后用代理的地址+客户端的uri 来转发的。多了一个/，是因为去掉了location中的路径/test，然奇一prox

houjinkai 2020-03-01

软件定义网络基础---REST API的设计规范

文档是资源的单一表现形式；集合是资源的一个容器(目录)，可以向里面添加资源(文档)；客户端管理的一个资源库，可以向仓库中新增资源或者删除资源，或者从仓库中获取资源；可以执行一个方法，支持参数输入，结果返回。URI中分隔符“/”一般用来对资源层级的划分

xiaouncle 2020-01-23

Hadoop2.x HDFS shell命令

清空回收站，文件被删除时，它首先会移到临时目录.Trash/中，当超过延迟时间之后，文件才会被永久删除。Sets Access Control Lists of files and directories.

gaoyubotaili 2014-06-18

Elasticsearch: 使用URI Search

针对这种搜索，我们可以使用强大的DSL进行搜索。在Elasticsearch中，还有一类是基于URI的搜索。对于这种它可以很方便地直接在浏览器中的地址栏或命令行中直接使用。使用此模式执行搜索时，并非所有搜索选项都公开，但是对于快速的“curl tests”

心丨悦 2019-12-24

nginx实际应用一

= #用于标准uri前，需要请求字串与uri精确匹配，如果匹配成功就停止向下匹配并立即处理请求。\ #用于标准uri前，表示包含正则表达式并且转义字符。区分大小写，前面A必须是大写A，后面的.?匹配单个字符可以是随机，后面的jpg必须是小写的jpg.

luofuIT成长记录 2019-12-15

laravel nginx 配置隐藏index.php

try_files $uri $uri/ /index.php?$query_string;if (!-d $request_filename). rewrite ^/(.+)/$ /$1 permanent;if ($request_uri ~* ind

Lincain 2019-11-16

RESTful HTTP的实践

本文对RESTful HTTP的基础原理做了一个概览，探讨了开发者在设计RESTful HTTP应用时所面临的典型问题，展示了如何在实践中应用REST架构风格，描述了常用的URI命名方法，讨论了如何使用统一接口进行资源交互，何时使用PUT或POST以及如何

killmice 2016-07-14

Android SDK2.0 通讯录

数据是应用的核心，在Android的应用程序中我们经常需要调用通信录，比如给联系人发送贺卡，发送Email。我们已经知道可以通过ContentProvider去拿到数据，但是其uri如何得到呢。这就需要我们去查看文档，但是Android开发者指南已经很久没

GoAheadY 2011-07-18

Android数据存储与访问之使用ContentProvider

ContentProvider 在Android中的作用是对外共享数据，也就是说你可以通过ContentProvider把应用中的数据共享给其他应用访问，其他应用可以通过ContentProvider 对你应用中的数据进行添删改查。是这样的，如果采用文件操

RickyHuo成长之路 2012-06-20

hdfs,hive,hbase,与kerberos的java操作

import java.net.URI;public static void main(String[] args) throws IOException {. Configuration conf = new Configuration();URI ur

xiyf0 2018-05-30

详解Nginx 静态文件服务配置及优化

root 指令指定将用于搜索文件的根目录。为了获取所请求文件的路径，NGINX 将请求 URI 附加到 root 指令指定的路径。该指令可以放在 http {} ， server {} 或 location {} 上下文中的任何级别。在下面的示例中，为虚拟

yongzhang 2019-05-24

Nginx Location指令URI匹配规则详解小结

location指令是http模块当中最核心的一项配置，根据预先定义的URL匹配规则来接收用户发送的请求，根据匹配结果，将请求转发到后台服务器、非法的请求直接拒绝并返回403、404、500错误处理等。当nginx收到一个请求后，会截取请求的URI部份，去

AbitGo 2019-04-12

nginx location中uri的截取的实现方法

root 指令只是将搜索的根设置为 root 设定的目录，即不会截断 uri，而是使用原始 uri 跳转该目录下查找文件。aias 指令则会截断匹配的 uri，然后使用 alias 设定的路径加上剩余的 uri 作为子路径进行查找。location /t4

haoxun0 2019-04-12

Http Download File

import java.net.URI;public static InputStream downFile(String src) throws IOException {. return downFile(URI.create(src));public

loveyy 2018-04-16

nginx配置location [=|~|~*|^~] /uri/ { … }用法

nginx location语法基本语法：location [=|~|~*|^~] /uri/ { …如果这个查询匹配，那么将停止搜索并立即处理此请求。~*为不区分大小写不匹配^~ 如果把这个前缀用于一个常规字符串,那么告诉nginx 如果路径匹配那么不测

finnaxu 2016-04-29

restful api的一些深层感悟

restful风格的api相当流行了，但很多开发人员对restful并没有深入理解，这几年面试了很多人，对restful的理解都很肤浅，好一点的也只知道统一资源接口，很多连表示层状态转移的涵义到底是什么，‘’转移‘’到底是什么意思都不知道。相比远程过程调用

87921432 2016-03-15

理解OAuth 2.0

Resourceserver：资源服务器，即服务提供商存放用户生成的资源的服务器。它与认证服务器，可以是同一台服务器，也可以是不同的服务器。OAuth在"客户端与服务提供商之间，设置了一个授权层。客户端登录授权层以后，服务提供商根据令牌的

GimmeS 2016-03-01

URI标识符有哪些？Win10系统如何使用URI

　　所谓的URI指的是统一资源标识符，使用URI可以直接进入某一个设置的界面。Win10系统如何使用URI呢？　　1、可以按Win+R打开运行，直接将URI粘贴到运行输入框回车即可；　　2、可以新建快捷方式，将URI作为对象位置键入；　　3、也可以将

LiTOPPPP 2015-06-09

Hadoop hdfs Shell命令 HDFS操作命令

调用文件系统Shell命令应使用 bin/hadoop fs 的形式。对HDFS文件系统，scheme是hdfs，对本地文件系统，scheme是file。其中scheme和authority参数都是可选的，如果未加指定，就会使用配置中指定的默认scheme

QAnyang 2013-10-08

Mac OS上配置hadoop eclipse 调试环境

.getFileContext();//如果运行在hadooplocation中，不需要配置URI，否则需要给一个URI. 然后右键->Run As->Run on hadoop，此时会让你选择一个location，就选中我们刚才新建的loca

BigPig 2013-05-20

luoxinyurose

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号