基于Hadoop技术的大数据就业岗位数据分析

2021-12-18 12:35梁天友邱敏
电脑知识与技术 2021年31期
关键词:统计分析可视化大数据

梁天友 邱敏

摘要:大数据是一门新兴技术,为了进一步了解与之有关的就业岗位情况,通过使用Java程序爬取出真实的大数据就业岗位数据,再结合Hadoop技术进行统计分析,最后使用可视化技术呈现大数据技术岗位不同地区招聘的薪资、数量、职业技能需求等详细信息,为各应聘者做参考和决策分析。

关键词:大数据;岗位招聘;Hadoop;统计分析;可视化

中图分类号:TP391      文献标识码:A

文章编号:1009-3044(2021)31-0047-04

Big Data Employment Data Analysis Based on Hadoop Technology

LIANG Tian-you, QIU Min

(School of Information Engineering, Nanning University, Nanning 530200,China)

Abstract: Big data is a new technology, in order to further understand the related employment situation, through the use of Java program climb out real big jobs data, combining the Hadoop technologies were analyzed, and finally using visualization techniques to present big data technology jobs in different area, the hiring salary, quantity, detailed information, such as professional skill requirements for the candidates for your reference and decision analysis.

Key words: Big data; Job recruitment; Hadoop; Statistical analysis; visualization

据IBM统计,全球近90%的数据是在过去2年中生成的,每天都在增加2.5 EB(1 EB=1 024 PB)数据。其中,约有90%的数据是非结构化的。所以这些来自网络和云平台的大数据为价值创造和商业智能提供了新的机会。随着大数据的到来,大数据岗位人才稀缺,治理大数据技术问题成为政府和各公司的问题【1】。政府治理(government governance)主要管理政府大数据和利用政府大数据,收集突发公共安全、突发卫生健康、犯罪、自然灾害、恐怖主义、国防等,并且向社会输送大数据技术人才,根据教育部公布的2017-2020年普通高等学校本科专业备案和审批结果显示,获批新增“数据科学与大数据技术”专业的高校高达616所【2】。公司治理(corporation governance)以信息技术(information technology)治理,即IT治理为主,更新技术处理设备,招纳大数据技术人才。

在如此的大数据技术背景下各公司会把所需人才岗位发布到互联网上,求职者根据自身需求和技能对位各公司的岗位,而使用爬虫和大数据相关技能爬取、统计、分析出来的数据能够帮助求职者起到一个借鉴和决策的作用。

1研究数据及技术方法

本次研究以Java和Hadoop技术为基础,“大数据”为关键词,爬取某IT互联网招聘网站各公司的招聘信息到Hadoop分布式文件系统(HDFS)上,爬取信息包括地区、岗位名称、薪资、教育背景、经验要求、公司福利六个字段,对爬取的数据进行处理后存储在Hive数据仓库上,使用MapReduce对数据进行统计分析,然后再使用大数据迁移工具Sqoop把数据导入到本地MySQL数据库中,最后按地区招聘数量、薪资、教育背景、经验要求、公司福利等使用Echarts进行可视化分析展示。

1.1 Hadoop

Hadoop是一个由Apache基金会旗下的开源分布式系统基础架构。具有高可靠性、高效、高可扩展性、高容错性、低成本、支持多种语言编程等特点。它可以充分利用集群的威力实现高速运算和存储。Hadoop有两大核心分别是分布式文件系统(Hadoop Distributed File System)和MapReduce。HDFS是针对谷歌文件系统(Google File System,GFS)的开源实现,具有高容错性、较高的读写速度、可伸缩性支持大规模数据存储等特点。HDFS放宽了一部分(relax)POSIX的约束,可以实现以流的形式访问(streaming access)文件系统中的数据。MapReduce是针对谷歌MapReduce的开源实现,为海量的数据提供了计算,并且允许用户在不了解分布式系统底层细节的情况下开发并行应用程序。

1.2 Sqoop

Sqoop是一款开源的工具,是SQL-to-Hadoop的缩写,主要用于在Hadoop与传统的关系型数据库间进行数据的交换,可以将一个关系型数据库(如:MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。主要通过JDBC(Java DataBase Connectivity)进行交互【3】。

1.3 Echarts

Echarts是一个纯Javascript的图表库,通过Web页面引入该库,就可在PC和移动设备的浏览器中以表、图等方式绘制数据。通过轻量级ZRender类库内部的MVC(Stroage(M)、Painter(V)、Handler(C))封装,开源实现图形的显示、视图渲染、动画擴展和交互控制等,为用户提供了生动、直观、可交互、高度个性化设计的可视化图表。Echarts具有支持多种坐标系独立使用与组合、可按需打包、支持大规模数据显示、支持多维数据显示、可通过图表的方式展现动态数据等特点【4】。

1.4整体流程

此项目整体构架与流程如图1所示:

2 研究结果及分析

本次项目爬取了450条岗位信息发布记录,包含了全国18个热门城市,即此网站18个热门城市中大数据技术岗位需求量至少为450。大数据岗位职称有93个,其中大数据开发工程师和大数据架构师独占多数,大数据岗位所要用到的技术包括了Hadoop、Spark、Java、数据仓库、Flink、ETL、Python等91种,学历包括了不限学历、大专、本科、硕士,工作经验在0到10年之间。

2.1地区岗位需求量

从数据分析及可视化展示图2可知,全国18个城市地区大数据技术岗位需求量各不相同,其中,北京市需求量最高,占比29.56%,其次往下的是上海和深圳,分别达到了18.89%和16%占比量的岗位需求,石家庄、苏州、金华和青岛对大数据技术岗位需求比例最少。分析原因,后者这几个城市科技发展和经济发展没有前者高,而北京市的中关村又是科技之乡,所以对于处理数据方面的需求后者没有前者高。

2.2大数据岗位薪资情况

从数据分析及可视化展示图3和图4可知,全国大数据岗位薪资最高为100k,最低为3k,大数据技术岗位薪资大多集中在10k-30k之间,低于6k的很少。由图5可知在城市大数据岗位平均薪资上,可以看出北京的大数据岗位的平均薪资最高,达到27.7k,后四位为金华、杭州、上海、深圳。分析原因,北京有字节跳动、美团、京东、百度、新浪等互联网巨头的加持、并且这些企业产生的数据量都是巨大的,所以要引入具有大数据技术高技术人才处理这些海量的数据,类似的,其他企业也需要技术型人才处理他们公司的数据,所以这些企业带动了岗位工资的提升,而后四位平均薪资也不低于23k,这是由于这几个城市都是我国的经济发展区并且都与国际对轨,高新科技发展也都离不开这几个城市,公司注册总数也在全国前列,所以这些公司也会花上巨资来巩固公司的数据量与安全。而平均薪资最低的城市也不低于9.8k,从此可以看出各个地方对于大数据技术人才都比较渴望,也可以看出對于大数据技术岗位的未来也拥有光明的前景。

2.3教育背景及经验分析

从数据分析及可视化展示图6可知,各公司对求职者学历上的要求占比最多为本科,占比88.89%,而不限学历的占比仅为3.33%,由此可知在应聘大数据这些岗位上学历的确是块敲门砖,而针对于大数据这门技术开设的专业本科院校就高达616所。再从图7看,平均薪资对学历最高的也为本科,由于国内市场的需求和本科院校开设专业的原因,国内各公司都肯花钱聘请本科层次以上的大数据专业人才来处理公司产生的大量数据。从图8和图9分析图可知,各公司对于招聘的要求不仅是学历的要求,在工作经验上也要做上1到3年,一部分企业还要招聘工作经验在6年以上的,因为很少有企业把自己公司的数据交给一个本科在读或是刚毕业的年轻小伙去处理,不仅加大了处理数据的时间,还加大了数据安全的风险,得不偿失。而薪资方面,当然也是工作经验越久,薪资也就越高。

2.4技能分析

从数据分析及可视化展示图10可知,绝大多部分企业需要求职者掌握Hadoop、Spark、Java等技能,因为现在主流的大数据框架都是Hadoop和Spark,而这两个开源集群的大数据计算集群底层是用Java语言编写,所以各公司会让你了解熟悉Hadoop和Spark的生态环境,再用Java语言去开发编写相应的程序处理数据集。图11为大数据岗位需要掌握的主流开发技能薪资对比,从数仓建模再到大数据生态环境各组件的熟悉,也体现了学习大数据环境技能所对应的价值。

2.5公司福利分析

从数据分析及可视化展示图12可知,全国大部分企业都有带薪年假、五险一金、绩效奖金、弹性工资、年底双薪这五项福利,而往后的几项福利也很不错,这些都是公司特色,同时也可以吸引有技术的求职者入职,在同等薪资的情况下福利越好越吸引人,求职者也可以按照自己对福利的需求来选择合适企业。

2.6总体分析

从以上的可视化分析,再结合所获取的数据可以得知,北京、上海和深圳这三个城市是大数据岗位需求量最大的城市,同时也是薪资最高的城市,这也取决于这三座城市经济的快速发展和国际化,面对大数据人才缺口,这些城市的企业都会花上重金去聘请有能力的大数据技术人才,随着时代的发展,大数据的普及,大数据技术应用的领域越来越广,医疗、公共卫生、人口普查、智能科学等都能够应用上,所以大数据所带来岗位也越来越多,其他城市的企业也同样重视大数据领域技术的应用,所以也会从薪资上福利上想尽办法吸引大数据人才,大部分企业的需求都是本科毕业,工作经验在3-5年,熟悉大数据集群Hadoop或Spark的生态环境并用Java语言去开发,这也为现在开设数据科学与大数据技术专业的高校提供了教学方向,让学生在学校就能吸收到实践项目所带来的经验与方法,对以后就业就有很大的帮助,而社会自学者也可以根据岗位需求不断调整学习方向和吸收开发经验就可以跨上更好的公司升职加薪。

3结束语

此次爬取分析也为大数据技术实现的基本流程之一,包括了数据爬取、数据清洗、数据转换、数据导入与导出、数据分析再到可视化的过程,爬取的数据量虽然不是很多,但是也基本能体现大数据技术岗位上的整体状况。互联网招聘由于时代的发展,也成为IT人员应聘的主流方式之一,获取其中数据,分析挖掘便可得知未来规划发展的方向,大数据岗位求职者阅读此文章也可以为自己的职业规划与选择做出合理的决策做参考。

参考文献:

[1] 杨孟辉,杜小勇.政府大数据治理:政府管理的新形态[J].大数据,2020,6(2):3-18.

[2] 梁婷婷,邱素贞,陆珊.本科层次大数据人才需求可视化分析[J].智能计算机与应用,2020,10(4):276-279.

[3] 林子雨.大数据技术原理与应用[M].北京.2版:人民邮电出版社,2017:28-32.

[4] 何光威.大数据可视化[M].北京:电子工业出版社,2018.

【通联编辑:唐一东】

收稿日期:2021-06-25

基金项目:本文为南宁学院大学生创新训练项目阶段性成果,项目名称:视途,视在必行——大数据可视化分析服务,项目编号:202011549097

作者简介:梁天友(1999—),男,广西人,本科在读,专业:数据科学与大数据技术;邱敏(1998—),女,广西人,本科在读,专业:数据科学与大数据技术。

猜你喜欢
统计分析可视化大数据
基于CiteSpace的足三里穴研究可视化分析
基于Power BI的油田注水运行动态分析与可视化展示
基于CGAL和OpenGL的海底地形三维可视化
“融评”:党媒评论的可视化创新
如何发挥新时期统计工作的作用之我见
以统计分析为基础的房地产税收优化分析
SPSS在高校图书馆服务体系中的应用研究
基于大数据背景下的智慧城市建设研究