爬取招聘数据进行数据分析及可视化_爬取招聘网站加可视化源码包-CSDN博客

沙特甲 03-21 阅读:31 评论:0
爬取招聘数据进行数据分析及可视化_爬取招聘网站加可视化源码包-CSDN博客

  导入需要用到的包:

  爬取

  该网址获取到第三页需要验证登录,需要获取大量数据的朋友可以添加个cookie验证。数据量变大也不影响后面进行数据分析。

  访问是Ajax请求,需要用到post请求附带Request Payload信息才能拿到数据。通过断点,找到对应的js加密,分析数据加密方式,模拟加密即可~

  以上代码执行完毕我们会得到一个 数据.csv,看起来还不错,我们进行下一个部分。

  数据分析

  由于我们在获取阶段已经将数据保存至了CSV,所以直接用pandas中函数直接读取CSV即可。

  pandas默认的列和宽度较少不便观看,通过set_option调整最大列数为10,整个列宽为200。

  数据清理

  获取的数据较乱,没有可以直接用来分析的数据,下面我们进行清理。

  分列

  薪资将会是一个重要指标,我们先进行清理,将salary列分成最低工资bottom和最高工资top,再进行平均计算。

  切片

  这样我们就会得到三个新的列,我们再将工资划分成3个等级,以0-5k为“低”,5-10k为“中”,10k以上为“高”。

  关于数据岗位的薪资还是不错的,结果如图:

  分析

  再做一些简单的描述性数据分析

  其中describe和skew结果如下:

  从初步的分析来看,全国对于数据分析行业,平均薪资为9.8k,中位数为7k,同时skew=2.8可以看出数据正偏(右偏)分布,说明有少部分工资很高的岗位拉高了平均值。

  结果如下:

  使用堆积柱状图来显示每个城市的数据岗位数和工资范围

  我们设置字体设置为黑体,不然会有乱码出现

  最后我们得出柱状图,显然一见对于数据岗位,北京、深圳、武汉、成都较为多,北京的高工资岗位相对来说最多。

  折线图展示工资为“高”的岗位工作经验要求

  可以看出3-5年的数据岗位需求最大,如图:

  我们进行排序和可视化

  可以判断出,数据岗位的工作年限黄金段在于3-5年 。

  以上就是本章全部内容了,由于数据量太少,分析的很片面,有兴趣的朋友可以将数据源获取加大,结果更加准确~

  有问题的可以私信我~

版权声明

本文仅代表作者观点,不代表百度立场。
本文系作者授权百度百家发表,未经许可,不得转载。

分享:

扫一扫在手机阅读、分享本文

网友评论

相关推荐

标签列表