简历数据分析与可视化

2020-02-22 03:58朱剑林李林洁宫托娅
电脑知识与技术 2020年36期
关键词:网络爬虫数据可视化

朱剑林 李林洁 宫托娅

摘要:简历是求职者能力、经历、技能等简要的总结,是求职者全面素质和能力体现的缩影。但是目前互联网上的简历数据分散、格式不统一等问题,该论文围绕简历数据可视化分析,以就业理论和生涯规划理论为指导,爬取了互联网上公开发布的求职简历相关的数据,经过数据清洗、特征工程,构建了职业发展相关的特征并将结果进行可视化分析。这些可视化的图表数据以量化、直观的方式为求职者的职业生涯指导提供辅助指导,为大规模细粒度研究人才职业流动行为打下基础。

关键词:简历数据分析;网络爬虫;数据可视化

中图分类号:TP311      文献标识码:A

文章编号:1009-3044(2020)36-0189-03

1 背景

根据Super(舒伯)[1-2]的职业生涯发展理论,人的职业生涯可以划分为五个主要阶段:成长阶段、探索阶段、建立阶段、维持阶段和退出阶段,职业选择和生涯规划是人重要的发展任务之一[1-3]。职业是指人们从事的相对稳定的、有收入、专门类别的工作,它是人们的生活方式、经济状况、文化水平、行为模式、思想情感的综合反映,也是一个人的权力、义务、利益和职责,从而是一个人社会地位的一般性表征。选择职业是人的一生中最复杂和最重要的决定之一[1-2],人们对职业的选择可以满足他们的基本生存需求、价值观和兴趣,从而影响他们的生活质量。Guay等人[4]强调,职业发展是一个持续的过程,包括寻找、获取和处理关于自己和环境的信息,个人在职业生涯中的工作变动引起的人才流动现象称为职业流动行为[5]。

求职者的能力、教育水平、经历、技能、职业追求等均浓缩在简历中,简历可以说是求职者全面素质和能力体现的缩影。随着社会信息化的快速发展,互联网上积累了大量的简历相关数据,同时信息处理能力的快速增长、信息可视化理论和技术的不断发展,为职业流动行为的科学研究和创新提供了机遇。本项目拟从简历数据的角度对职业流动相关问题进行可视化分析,根据Super[1-2]的职业发展理论认为人的职业选择不是一次完成的,而是随着环境以及个人的成长而不断动态地发展变化,这些交互直接或者间接影响了自我的认知和职业决策能力。

本文以求职者简历中的性别、年龄、学历、预期薪水、自我评价、岗位变迁等为基础,通过自身比对与比较不同城市的可视化数据,将计算机行业中“通信/网络/计算机”的职位类别在市场与人才竞争中的特点一一展现。这些可视化的图表数据以量化、直观的方式为求职者的职业生涯指导提供辅助材料,帮助求职者对该类型岗位有所理解并能找准自己的定位,招聘单位借此类图表数据也能对岗位或人才的紧缺有所了解,并能提供符合市场需要的合理的薪酬与待遇,为大规模细粒度研究人才职业流动行为打下基础。

2 相关研究工作

本论文围绕简历数据爬取与可视化这一研究主题,以就业理论和生涯规划理论为指导[6-7],采集互联网上公开的简历相关数据,自适应抽取相关数据,从这些数据中构建职业发展相关的特征,并尽可能无损将这些特征融合在一起动态、实时、可视化展示职业发展相关指标。

与本研究相关的研究内容,胥皇[5]提出基于属性图挖掘技术研究职业流动行为(职业生涯中的工作变动引起的人才流动现象),将流量源发现和流动量预估问题分别转换成了静态图聚类和动态图预测问题。Wu K等[8]一个人的职业轨迹是由他/她在不同时期的工作或学习经历(机构)组成的,了解人们尤其是学者的职业轨迹,可以帮助政府制定更科学的战略,以分配资源和吸引人才,帮助公司制定明智的招聘计划,以及个人找到合适的合作研究者或工作机会。Huaxiu Yao等[9]试图从基于在多个地点共同出现的行为记录构建校园的社交网络,并验证了校园社交网络和学业成绩的关系,表明学生的学业成绩与他们的朋友圈相关。在校园社交网络对学业成绩有影响的基础上,提出了一种新的基于多重网络的标签传播算法来预测学业成绩。Nie M.等[10]基于学生校园行为提取了四种行为特征,提出了一种基于数据驱动的职业选择预测框架,发现所提取的职业技能、行为规律性和经济状况与职业选择显著相关。基于以上的研究基础,教育管理者可以更好地指导学生的职业生涯规划,并在必要时在早期实施有效的干预措施。

3 简历数据的获取与处理

本文数据爬取、处理、可视化均是基于Python语言编写,并使用anaconda3进行包的管理。Python语言是一种开放源代码、一个高层次的结合了解释性,编译性,互动性和面向对象的免费的跨平台的高级语言,被称为“胶水语言”——可以非常容易地把Java和C++等主流语言粘在一起,实现程序之间的联动。

3.1 简历数据的获取

本文数据主要通过网络爬虫爬取某简历发布与查询网站而获得。网络爬虫英文Web Crawler[11-12],是一種能按照既定的规则自动抓取互联网信息的程序或者脚本,已广泛地运用于互联网的搜索引擎或者其他类似的网站中。从功能上来讲,爬虫通常分为网页获取、网页分析、数据储存三个部分。爬虫的核心模块有三个部分:URL管理器、网页下载器和网页解析器。

3.2 简历数据的处理

数据处理的基本目的是从大量的、复杂的、难以理解的数据中去粗取精,抽取并推导出有价值、有意义的信息。处理数据需要一些软件及算法的支持,数据处理相关软件包括:支持数据下载、模式识别等的程序设计语言及其编译程序,管理维护数据的管理系统,以及整合了多种数据处理方法的应用软件包。本文中对数据进行处理使用到的第三方库有Jieba、re、Collections、Numpy、Pandas等。

3.3 简历数据的可视化

数据可视化[13-14],是针对数据视觉表现形式的科学技术研究,这种数据的视觉表现形式被定义为以某种概要形式抽提出来的信息,包括相应信息的各种属性、变量等。数据可视化技术主要通过图形化手段对需要的数据进行处理,目的是展示出直观、鲜明、分而有类的数据。数据的可视化通过直观地传达关键的方面与特征,美学形式与功能需要齐头并进,从而实现对于相当稀疏而又复杂的数据集的深入洞察。论文中使用到的第三方库有wordcloud、PIL、matplotlib.pyplotis、PyEcharts等。

4 简历数据可视化

本节数据选取中国五个不同城市、所求职位类别为“通信/网络/计算机”的求职者简历,对他们简历中的基本信息内容进行可视化分析。

4.1 个人简历可视化

针对单个简历数据,生成该简历的思维导图,如图1所示。

随机选取的个人简历在自我评价一栏,其自我评价的词云图如图2所示。

4.2 简历基本信息数据的图表可视化

求职者中的性别分布:性别属性构成仅分为“男”“女”两种,选择简单明了的饼图最为合适,不同颜色的面积大小表现了数值的多少。

求职者年龄组成:由于年龄跨度可能为十年甚至更多,且呈现明显的男女差别需要具体到单一年龄段才能使数据更为翔实。论文中选择以面积图来展示求职者中男女的年龄分布,不仅仅显示不同年龄数量的差别,更进一步显示男女之间在求职中的年龄体现。

求职者学历区别:不同求职者受教育程度在很大程度上决定了求职岗位的难度及薪水等关键问题,而对于同一岗位,竞争者间的学历划分与分布能为市场及招聘公司的人才采纳规划提供有力的支持,图3的南丁格尔图为求职者学历比例,展示不同学历的数量分布。

求职者预期薪水分布:对于同一行业同一职位,不同的求职者根据市场规律及自身条件会有不同的薪水预期,明确了解薪水的期望数值,能为招聘公司对不同职位给出的薪水标准提供有力的支持。而由于职场中男女性别的自身差异较大,对预期薪水的判断也有明显差别,因此特别区分男女性别在相同职位“通信/网络/计算机”上的预期薪水分布。

4.3 图表整合优化

论文中绘制了超过20多张图表,为了能够方便观察,需要在一个界面显示多个图表。PyEcharts可支持图表组合,组合类型有四种:Grid、Overlap、Page、Timeline。它们的不同功能如下:

1)Grid:可将多个不同类型的图表放在一个界面中。

2)Overlap:可将多个类型功能不同的图表放在一张图种同时显示。

3)Page:可将多个图表按顺序展示在一张网页中,且能放置Grid、Overlap、Timeline这三种类型的图表。

4)Timeline:可将多个图表绘制成轮播图,动态播放。

根据所绘制的图表,论文中应用了Timeline和Page这两种组合。论文中将所有图表按照所代表的地区划分,则分别有全部地区和北京、上海等五个城市的图表,这样的分法用Page模块生成了6页不同的图表组合。同时为了能将不同城市的同一属性进行对比,本文按照不同图表所展示的内容,将不同地区作为轮播图的选择条件,并将显示不同内容的轮播图放置在同一页面中。

5 论文总结

本论文围绕简历数据可视化分析这一主题,以就业理论和生涯规划理论为指导,爬取了互联网上公开发布的求职简历相关的数据,经过数据清洗、特征工程后,聚焦在计算机行业中“通信/网络/计算机”的职位类别,以求职者简历中的性别、年龄、学历、预期薪水、自我评价、岗位变迁等为基础,构建了职业发展相关的特征并将结果进行了可视化分析。这些可视化的图表数据以量化、直观的方式为求职者的职业生涯指导提供辅助材料,帮助求职者对该类型岗位有所理解并能找准自己的定位,招聘单位借此类图表数据也能对岗位或人才的紧缺有所了解,并能提供符合市场需要的合理的薪酬与待遇,为大规模细粒度研究人才职业流动行为打下基础。

参考文献:

[1] Super D E.A theory of vocational development[J].Theory &Practice of Vocational Guidance,1953,8(5):13-24.

[2] Super D E.A life-span,life-space approach to career development[J].Journal of Vocational Behavior,1980,16(3):282-298.

[3] 冯嘉慧.美国生涯指导理论范式研究[D].上海:华东师范大学,2019.

[4] Guay F,Ratelle C F,Senécal C,et al.Distinguishing developmental from chronic career indecision:self-efficacy,autonomy,and social support[J].Journal of Career Assessment,2006,14(2):235-251.

[5] 胥皇.基于屬性图挖掘的职业流动行为研究[D].西安:西北工业大学, 2019.

[6] 张淼.大学生就业质量评价指标开发及其实证检验[D].西安:西北工业大学,2017.

[7] 刘洋.辽宁省大学生就业偏好识别及影响因素研究[D].阜新:辽宁工程技术大学,2017.

[8] Wu K,Tang J,Zhang C H.Where have You been?inferring career trajectory from academic social network[C]//Proceedings of the Twenty-Seventh International Joint Conference on Artificial Intelligence. 2018.

[9] Yao H X,Nie M,Su H,et al.Predicting academic performance via semi-supervised learning with constructed campus social network[M]//Database Systems for Advanced Applications.Cham:Springer International Publishing,2017:597-609.

[10] Nie M,Yang L,Sun J,et al.Advanced forecasting of career choices for college students based on campus big data[J].Frontiers of Computer Science,2018,12(3):494-503.

[11] 瑞安·米切尔. Python网络爬虫权威指南[M].神烦小宝,译.2版.北京:人民邮电出版社,2019:92-168.

[12] 吕云翔,张扬.Python网络爬虫实战[M].北京:清华大学出版社,2019:20-35.

[13] 魏世超,李歆,张宜弛,等.基于E-t-SNE的混合属性数据降维可视化方法[J].计算机工程与应用,2020,56(6):66-72.

[14] 张杰.Python数据可视化之美:专业图表绘制指南(全彩)[M].北京:电子工业出版社,2020.

【通联编辑:谢媛媛】

猜你喜欢
网络爬虫数据可视化
可视化:新媒体语境下的数据、叙事与设计研究
炼铁厂铁量网页数据获取系统的设计与实现
我国数据新闻的发展困境与策略研究