用Python爬取前程无忧网大数据岗位信息并分析！找到最合适你的

ARCXIANG

2019-09-25

关注关注

近期秋招进入高峰期，28号学校有一个秋招大型招聘会，本来想在网上爬一下自己专业的招聘岗位，结果检索结果寥寥无几(摊手)，于是我就无奈的爬取并分析了一波我准备转行的大数据行业的就业行情。

爬虫的基本思路

在前程无忧官网检索“大数据”的结果中，每条检索结果详情对应的URL存在a标签的href属性中，通过组合选择器可以找到每条检索结果详情的URL。
前程无忧的招聘岗位信息数据固定的放在HTML的各个标签内，通过id选择器、标签选择器和组合选择器可以诸如公司名、岗位名称和薪资等11个字段的数据。
基于上述1和2，可以通过解析检索“大数据”得到的URL得到其HTML，再从此HTML中的具体位置的a标签得到每个岗位的详情对应的URL;然后解析每个岗位的详情对应的URL得到其HTML，再从结果HTML的具体位置找到每个岗位的详情。具体位置怎么确定呢?通过组合选择器!

前程无忧爬虫具体代码

直接贴代码容易破坏我的排版，具体代码见：https://github.com/cugwhzenith/SpiderOf51job.git，其中SpiderOf51job.py就是爬虫代码，关键点的操作见注释。其他的代码是对爬虫代码的处理。

爬虫结果

爬虫结果我是以csv的格式存储的，看起来不太直观，所以我打算用wordcloud和直方图来可视化爬虫的结果。

爬虫结果处理

一般来说，应聘者对一个工作的地点、工作名称、薪资和需要的技术最为关心，刚好上述爬虫的结果包含了这四个字段。

1、薪资结果的处理。在爬虫结果中，薪资在第二列，一般是诸如“1-2万/月”、“20万/年”和“500/天”的结果，先判断每个结果的最后一个字符是“年”、“月”和“天”的哪一个，确定处理的逻辑之后，再用re.sub函数将除了数字之外的字符替换为空格，最后对结果求均值就到了了每个结果的均值。具体处理见wordcloudPlotSalary.py 。

2、需要的技术的处理。考虑到大数据要使用的技术绝大多数由外国人开发，如实我把大数据要使用的技术这一字段的中文全部替换为空格，然后用jieba剔除掉一些无意义的助词，就得到了大数据要使用的技术的词云图。具体代码见wordcloudPlotJobinfo.py 。

3、工作地点和职位名称的处理和上述2类似参见wordcloudPlotPlace.py和wordcloudPlotName.py，此处不再赘余，直接放结果。

工作地点词云：

python 大数据 python爬虫

安科网

用Python爬取前程无忧网大数据岗位信息并分析！找到最合适你的

ARCXIANG

ARCXIANG

相关推荐

Python爬虫破解登陆哔哩哔哩的方法

python 爬虫如何实现百度翻译

python 发送get请求接口详解

python 使用tkinter+you-get实现视频下载器

python中requests模拟登录的三种方式(携带cookie/session进行请求网站)

python开发一个解析protobuf文件的简单编译器

python 下载文件的多种方法汇总

Linux Shell 如何获取参数的方法

python跨文件使用全局变量的实现

python调用百度API实现人脸识别

Python调用ffmpeg开源视频处理库，批量处理视频

详解python os.path.exists判断文件或文件夹是否存在

python实现在列表中查找某个元素的下标示例

python如何获得list或numpy数组中最大元素对应的索引

Python实现列表索引批量删除的5种方法

致命错误！Python开发者的7个崩溃瞬间

针对Python开发人员的10个“疯狂”的项目构想

用Python内置模块处理ini配置文件

VS Code 中 Python 扩展的部分功能重构，支持 R 和 Julia

Python五个隐藏的特性，你可能从未听说过

ARCXIANG