Python练习

爬虫基础练习——抓取网页数据

题目:抓取http://www.cntour.cn/首页新闻

分析:依次找到要抓取的数据的节点

Python练习

使用筛选器依次找到要抓取的节点

#main>div>div.mtop.firstMod.clearfix>div.centerBox>ul.newsList>li>a

然后代码如下:

import requests        #导入requests包
import re
from bs4 import    BeautifulSoup
url=‘http://www.cntour.cn/‘
strhtml=requests.get(url)
soup=BeautifulSoup(strhtml.text,‘lxml‘)
data = soup.select(‘#main>div>div.mtop.firstMod.clearfix>div.centerBox>ul.newsList>li>a‘)
for item in data:
    result={
        ‘ID‘:re.findall(‘\d+‘,item.get(‘href‘)),
        ‘title‘:item.get_text(),
        ‘link‘:item.get(‘href‘)
    }
    print(result)

结果如下:

Python练习

相关推荐