利用python爬取腾讯新闻文字内容(requests)

这个项目很简单,可作为入门用,我们利用python中的requests库试着爬取一个腾讯新闻网页中的文字内容。如图

利用python爬取腾讯新闻文字内容(requests)

首先,打开开发者模式,分析网页。

具体做法,按F12,并用ctrl+f对elements进行搜索,关键字为新闻内容的几个字即可。例如新闻的开头有“随着中国”四个字,我们就在源码中搜索这四个字,搜索结果如图所示:

利用python爬取腾讯新闻文字内容(requests)

利用这个方法,我们很轻松就找到了新闻文字内容的位置,通过分析发现其内容都为p标签下的字符串,并且其class="one-p",这可以作为定位该内容的唯一特征。

通过以上的分析,我们确定了定位关键信息的方法,接下来就可以编写python程序了:

# -*- coding:utf-8 -*-import requests

from bs4 import BeautifulSoup

url = "https://new.qq.com/omn/20190704/20190704A0EHMR00.html"r = requests.get(url)

rr = r.content

bs = BeautifulSoup(rr,"lxml")

news_contents = bs.find_all("p",{'class':'one-p'})

news_final = ""for i in news_contents:

print(i.string)

if i.string:

news_final = news_final +i.string + ""f = open("news_contents.txt",'w')

f.write(news_final)

f.close()

打开最终保存的文件,内容如下:

利用python爬取腾讯新闻文字内容(requests)

最后小编自己也是一个有着6年工作经验的工程师,关于python编程,自己有做材料的整合,一个完整的python编程学习路线,学习资料和工具。想要这些资料的可以关注小编,并在后台私信小编:“01”领取,希望能帮助到你。

利用python爬取腾讯新闻文字内容(requests)

相关推荐