爬虫QQ说说并生成词云图,回忆满满!比比谁更杀马特!

爬虫QQ说说并生成词云图,回忆满满!比比谁更杀马特!

无图言虚空

爬虫QQ说说并生成词云图,回忆满满!比比谁更杀马特!爬虫QQ说说并生成词云图,回忆满满!比比谁更杀马特!
解析器使用方法优势劣势
Python标准库BeautifulSoup(markup, "html.parser")Python的内置标准库 执行速度适中 文档容错能力强Python 2.7.3 or 3.2.2)前 的版本中文档容错能力差
lxml HTML 解析器BeautifulSoup(markup, "lxml")速度快 文档容错能力强需要安装C语言库
lxml XML 解析器BeautifulSoup(markup, ["lxml", "xml"]) BeautifulSoup(markup, "xml")速度快 唯一支持XML的解析器需要安装C语言库
html5libBeautifulSoup(markup, "html5lib")最好的容错性 以浏览器的方式解析文档 生成HTML5格式的文档速度慢 不依赖外部扩展
爬虫QQ说说并生成词云图,回忆满满!比比谁更杀马特!

同理window的也一样,下载对应的驱动,解压后,将下载的**.exe 放到Python的安装目录,例如 D:\python 。 同时需要将Python的安装目录添加到系统环境变量里。

qq登录页http://i.qq.com,利用webdriver打开qq空间的登录页面

driver = webdriver.Chrome()
driver.get("http://i.qq.com")
爬虫QQ说说并生成词云图,回忆满满!比比谁更杀马特!爬虫QQ说说并生成词云图,回忆满满!比比谁更杀马特!爬虫QQ说说并生成词云图,回忆满满!比比谁更杀马特!

这个时候可以看到已经打开了qq说说的页面了,注意部分空间打开之后会出现一个提示框,需要先模拟点击事件关闭这个提示框

爬虫QQ说说并生成词云图,回忆满满!比比谁更杀马特!

tm我以前竟然还有个黄钻,好可怕~~,空间头像也是那么的年轻、主流...

爬虫QQ说说并生成词云图,回忆满满!比比谁更杀马特!爬虫QQ说说并生成词云图,回忆满满!比比谁更杀马特!爬虫QQ说说并生成词云图,回忆满满!比比谁更杀马特!爬虫QQ说说并生成词云图,回忆满满!比比谁更杀马特!爬虫QQ说说并生成词云图,回忆满满!比比谁更杀马特!

至此,爬取qq说说内容,并生成词云图。

源码github地址: github.com/taixiang/sp…

万人交流源码共享群:125240963

相关推荐