爬取招聘数据进行数据分析及可视化_爬取招聘网站加可视化源码包-CSDN博客

沙特甲 03-21 阅读：31 评论：0

　　导入需要用到的包：

　　爬取

　　该网址获取到第三页需要验证登录，需要获取大量数据的朋友可以添加个cookie验证。数据量变大也不影响后面进行数据分析。

　　访问是Ajax请求，需要用到post请求附带Request Payload信息才能拿到数据。通过断点，找到对应的js加密，分析数据加密方式，模拟加密即可~

　　以上代码执行完毕我们会得到一个数据.csv,看起来还不错，我们进行下一个部分。

　　数据分析

　　由于我们在获取阶段已经将数据保存至了CSV，所以直接用pandas中函数直接读取CSV即可。

　　pandas默认的列和宽度较少不便观看，通过set_option调整最大列数为10，整个列宽为200。

　　数据清理

　　获取的数据较乱，没有可以直接用来分析的数据，下面我们进行清理。

　　分列

　　薪资将会是一个重要指标，我们先进行清理，将salary列分成最低工资bottom和最高工资top，再进行平均计算。

　　切片

　　这样我们就会得到三个新的列，我们再将工资划分成3个等级，以0-5k为“低”，5-10k为“中”，10k以上为“高”。

　　关于数据岗位的薪资还是不错的，结果如图：

　　分析

　　再做一些简单的描述性数据分析

　　其中describe和skew结果如下：

　　从初步的分析来看，全国对于数据分析行业，平均薪资为9.8k，中位数为7k，同时skew=2.8可以看出数据正偏（右偏）分布，说明有少部分工资很高的岗位拉高了平均值。

　　结果如下：

　　使用堆积柱状图来显示每个城市的数据岗位数和工资范围

　　我们设置字体设置为黑体，不然会有乱码出现

　　最后我们得出柱状图，显然一见对于数据岗位，北京、深圳、武汉、成都较为多，北京的高工资岗位相对来说最多。

　　折线图展示工资为“高”的岗位工作经验要求

　　可以看出3-5年的数据岗位需求最大，如图：

　　我们进行排序和可视化

　　可以判断出，数据岗位的工作年限黄金段在于3-5年。

　　以上就是本章全部内容了，由于数据量太少，分析的很片面，有兴趣的朋友可以将数据源获取加大，结果更加准确~

　　有问题的可以私信我~

版权声明

本文仅代表作者观点，不代表百度立场。
本文系作者授权百度百家发表，未经许可，不得转载。

上一篇：选择迈阿密国际的原因之一就是美职联的强度相对较小 下一篇：电视家破解版vip永久版｜电视家最新vip破解版 V3.10.31 安卓去广告会员版下载_当下软件园

爬取招聘数据进行数据分析及可视化_爬取招聘网站加可视化源码包-CSDN博客

版权声明

网友评论

admin

相关推荐

文章排行

最近发表

标签列表

爬取招聘数据进行数据分析及可视化_爬取招聘网站加可视化源码包-CSDN博客

版权声明

相关文章

网友评论

admin

相关推荐

文章排行

最近发表

标签列表