爬取招聘数据进行数据分析及可视化_爬取招聘网站加可视化源码包-CSDN博客
导入需要用到的包:
爬取
该网址获取到第三页需要验证登录,需要获取大量数据的朋友可以添加个cookie验证。数据量变大也不影响后面进行数据分析。
访问是Ajax请求,需要用到post请求附带Request Payload信息才能拿到数据。通过断点,找到对应的js加密,分析数据加密方式,模拟加密即可~
以上代码执行完毕我们会得到一个 数据.csv,看起来还不错,我们进行下一个部分。
数据分析
由于我们在获取阶段已经将数据保存至了CSV,所以直接用pandas中函数直接读取CSV即可。
pandas默认的列和宽度较少不便观看,通过set_option调整最大列数为10,整个列宽为200。
数据清理
获取的数据较乱,没有可以直接用来分析的数据,下面我们进行清理。
分列
薪资将会是一个重要指标,我们先进行清理,将salary列分成最低工资bottom和最高工资top,再进行平均计算。
切片
这样我们就会得到三个新的列,我们再将工资划分成3个等级,以0-5k为“低”,5-10k为“中”,10k以上为“高”。
关于数据岗位的薪资还是不错的,结果如图:
分析
再做一些简单的描述性数据分析
其中describe和skew结果如下:
从初步的分析来看,全国对于数据分析行业,平均薪资为9.8k,中位数为7k,同时skew=2.8可以看出数据正偏(右偏)分布,说明有少部分工资很高的岗位拉高了平均值。
结果如下:
使用堆积柱状图来显示每个城市的数据岗位数和工资范围
我们设置字体设置为黑体,不然会有乱码出现
最后我们得出柱状图,显然一见对于数据岗位,北京、深圳、武汉、成都较为多,北京的高工资岗位相对来说最多。
折线图展示工资为“高”的岗位工作经验要求
可以看出3-5年的数据岗位需求最大,如图:
我们进行排序和可视化
可以判断出,数据岗位的工作年限黄金段在于3-5年 。
以上就是本章全部内容了,由于数据量太少,分析的很片面,有兴趣的朋友可以将数据源获取加大,结果更加准确~
有问题的可以私信我~
版权声明
本文仅代表作者观点,不代表百度立场。
本文系作者授权百度百家发表,未经许可,不得转载。