python 爬取文章后存储excel 以及csv

mieleizhi0

2019-12-13

import requests
from bs4 import BeautifulSoup
import random
import openpyxl
xls=openpyxl.Workbook()
sheet=xls.active
sheet.title=‘movies‘
sheet[‘A1‘]=‘序号‘
sheet[‘B1‘]=‘名称‘
sheet[‘C1‘]=‘评分‘
sheet[‘D1‘]=‘推荐语‘
sheet[‘E1‘]=‘链接‘

for i in range(11):
    params={
        ‘start‘: str(i*25),
        ‘filter‘:‘‘
    }
    headers={
        ‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.70 Safari/537.36‘
    }
    url=‘https://movie.douban.com/top250‘
    res=requests.get(url,params=params,headers=headers)
    con=res.text
    soup=BeautifulSoup(con,‘html.parser‘)
    maindiv=soup.find(class_="grid_view")
    for titles in maindiv.find_all(‘li‘):
        try:
            num = titles.find(‘em‘,class_="").text
            #查找序号
            title = titles.find(‘span‘, class_="title").text
            #查找电影名
            tes = titles.find(‘span‘,class_="inq").text
            #查找推荐语
            comment = titles.find(‘span‘,class_="rating_num").text
            #查找评分
            url_movie = titles.find(‘a‘)[‘href‘]
            print(num + ‘.‘ + title + ‘——‘ + comment + ‘\n‘ + ‘推荐语：‘ + tes +‘\n‘ + url_movie)
            sheet.append([num,title,comment,tes,url_movie])
        except:
            continue
xls.save(‘douban.xlsx‘)

csv:

import requests
from bs4 import BeautifulSoup
import random
import openpyxl
import csv

url="https://www.zhihu.com/api/v4/members/zhang-jia-wei/articles"
headers={
    ‘referer‘: ‘https://www.zhihu.com/people/zhang-jia-wei/posts/posts_by_votes?page=1‘,
    ‘user-agent‘: ‘Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36‘
}
csv_file=open(‘dazhangwei.csv‘,‘w‘,newline=‘‘,encoding=‘utf-8‘)
writer=csv.writer(csv_file)
header=[‘标题‘,‘简介‘,‘连接‘]
writer.writerow(header)
x=0
while True:
    params={
        ‘include‘: ‘data[*].comment_count,suggest_edit,is_normal,thumbnail_extra_info,thumbnail,can_comment,comment_permission,admin_closed_comment,content,voteup_count,created,updated,upvoted_followees,voting,review_info,is_labeled,label_info;data[*].author.badge[?(type=best_answerer)].topics‘,
        ‘offset‘: str((x*10)),
        ‘limit‘: ‘10‘,
        ‘sort_by‘: ‘voteups‘
    }
    res=requests.get(url,headers=headers,params=params)
    res_json=res.json()
    con=res_json[‘data‘]
    for i in con:
        lists=[i[‘title‘],i[‘url‘],i[‘excerpt‘]]
        writer.writerow(lists)
    if res_json[‘paging‘][‘is_end‘] == True:
        break
    x+=1
csv_file.close()

csv python openpyxl

mieleizhi0

0 关注 0 粉丝 0 动态

相关推荐

不常见的Pandas小窍门：我打赌一定有你不知道的

作为一名数据分析师或数据科学家，不了解Python中的Pandas库是无论如何说不过去的，它已经成为Python中用来整理、清理数据的标准工具了。然而，关于Pandas，你确定自己完全掌握了嘛?本文将分享一些少见但有用的Pandas技巧，它们能提升工作效率

wangquannuaa 2020-10-15

Navicat——数据以CSV格式文件导出后乱码

我们只需要在导出的时候把编码格式设置为10008 即可

xiaoxiaoCNDS 2020-09-18

Python如何读写CSV文件

CSV文件是一种纯文本文件，它使用特定的结构来排列表格数据。first row data 1,first row data 2,first row data 3. second row data 1,second row data 2,second row

sschencn 2020-08-16

python csv 简单操作

data1 = [[‘name‘, ‘age‘, ‘sex‘],[‘张三‘, ‘19‘, ‘男‘],[‘李四‘, ‘22‘, ‘男‘],[‘王五‘, ‘20‘, ‘男‘],

txlCandy 2020-06-26

Jmeter系列（33）- 跨平台运行 Jmeter，CSV 文件路径如何设置？

通常，我们编写、调试脚本都是在 Window 机器上，而真正性能测试时，脚本几乎都在 Linux 下运行。这里就有个问题：Window 下写的文件路径到了 Linux 下是不正确的，导致无法正常读取 CSV 文件。用来获取 Jmeter 的属性，那我们怎么

xinjing0 2020-06-25

Jmeter系列（32）- 详解 CSV 数据文件设置

如果你想从头学习Jmeter，可以看看这个系列的文章哦。了解一哈什么是 CSV 文件。为了实现简单的数据存储，是一个纯文本的文件。最通用的一种文件格式，它可以非常容易地被导入各种PC表格及数据库中。CSV 文件可以用记事本、excel打开；用记事本打开的话

新路 2020-06-25

pgsql某一个库所有表导出前1000行，CSV格式

列出docker容器列表：docker ps 进入到当前pgsql所在的容器： docker exec -it $dockerID /bin/bash. 切换用户:su - postgres将pgsql的skylarxx 库的所有表列出来

wuxunanjing 2020-06-16

Oracle SQLPlus导出数据到csv文件的方法

时不时地我们需要导出一些数据用作备份、查看报表等，如果用Sql Developer导出会非常慢。而用SqlPlus，则速度非常快。set newp none #设置查询出来的数据分多少页显示，如果需要连续的数据，中间不要出现空行就把newp设置为none.

oraclemch 2020-06-14

MongoDB中导出数据为csv文件

mongoexport -d myDB -c user -f _id,name,password,adress --csv -o ./user.csv

langyue 2020-06-13

读取csv,tsv,txt中的数据

tsv=pandas.read_csv #sep代表制表符的种类

真新镇的涅法雷姆 2020-06-13

Python--CSV数据格式、二维数据格式存储与提取

将数据写入CSV格式的文件：。二维数据的逐一处理：

lmseohy 2020-06-09

Jmeter提取response返回值保存到本地csv文件

项目中项目经理要求把接口响应报文某些字段保存到csv文件，上网查找资料发现jmeter可以实现。Variable Names: 给csv文件中各列起个名字便于后面引用。Delimiter:与 .csv文件的分隔符保持一致。　　+ 表示一次或多次。

天高任鸟飞 2020-06-04

ORACLE 导出CSV 数据量级几百万

导出文件需要自行下载，

haiross 2020-06-03

hadoop hdfs csv导入hive表

row format delimited fields terminated by ‘,‘ stored as textfile;

archive 2020-05-28

mysql 导入导出csv文件

LINES TERMINATED BY ‘\r\n‘;load data infile?fields?terminated?by?‘,‘?optionally?enclosed?by?‘"‘?escaped?by?‘"‘?lines?t

阿亮 2020-05-26

mysql 导入导出csv文件

LINES TERMINATED BY ‘\r\n‘;load data infile?fields?terminated?by?‘,‘?optionally?enclosed?by?‘"‘?escaped?by?‘"‘?lines?t

tanyhuan 2020-05-25

Oracle SQLPlus导出数据到csv文件

时不时地我们需要导出一些数据用作备份、查看报表等，如果用Sql Developer导出会非常慢。而用SqlPlus，则速度非常快。select t.name||‘,‘||t.age||‘,‘||t.salary||‘,‘||t.email||‘,‘||t.

bianxq 2020-05-19

使用pandas库对csv文件进行筛选和保存

多数大佬都是直接pandas官网甩我脸上，然后举一个入门级的例子。这个函数里面需要写入csv文件的路径，如果是把csv文件保存到了python的工程文件夹下，则只需要./文件名即可，然后encoding=‘utf-8‘是使用utf-8方式编码，有时候需要换

jzlixiao 2020-05-15

python查询数据库保存为csv

print(" 开始链接数据库！print(titile + f"导出成功！

一次次尝试 2020-05-09

Pandas写出数据

有读就有写！1.result.to_csv(sys.stdout, index=False, columns=[‘one‘,‘three‘,‘key‘]). result.to_csv(sys.stdout, index=False, columns=[‘

QianYanDai 2020-05-07

mieleizhi0

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号