高校数字人才培养体系建设现状与展望

2021-12-07 01:57李佩洁
社会科学家 2021年8期
关键词:数字科学人才

李佩洁,王 娟

(1.中国人民大学 经济学院,北京 100872;2.北京大学 数学科学学院,北京 100871)

国家《“十四五”规划和2035年远景目标纲要》中提出,要坚持创新驱动发展,强化国家战略科技力量。这就需要激发人才创新活力,培养造就高水平人才队伍,包括创新型、应用型、技能型人才。在数字时代,驱动经济社会发展的核心动力来源于对数据的创新应用,而这离不开能够发现、开发和实现数据价值的数字人才,即从事数字战略管理、深度分析、产品研发、先进制造、数字化运营和数字营销等人群(陈煜波和马晔风,2018)。[1]2019年4月,人社部等部门向社会发布13个新增职业,其中一半与数字人才紧密相关,包括云计算工程技术人员以及数字化管理师、物联网安装调试员等。我们将数字人才定义为能够促进数据要素资源有效利用并推动其他生产要素优化配置,支撑引领数字经济创新发展的技术研发与经济管理人才。

一、培养数字人才的紧迫性

数字人才储备不足已经成为制约我国乃至全球经济高质量发展的瓶颈之一。根据麦肯锡预测,2018年美国在具有深入分析能力的人才方面存在14万-19万人的缺口,而可以利用大数据分析来做出有效决策的经理和分析师缺口则高达150万。中国是继美国之后数字经济规模最大、发展速度也最快的国家,数据人才的缺口也最大。早在2015年5月,中国信息通信研究院在其研究报告中指出,预计5年内大数据人才缺口将高达130万。2020年7月,工业和信息化部人才交流中心在报告中指出,按照2020年实现人工智能核心产业规模超过1500亿元的目标,预计当前我国人工智能产业内有效人才缺口30万。由于现有的人才培养体系并未调整,人才供需结构矛盾依然突出,尤其是高端人才极度紧缺。例如高校和科研机构中的人工智能人才,按高H因子衡量,我国杰出人才只有不到一千人,不及美国的五分之一。尽管薪资远高于市场均值,但是数字人才的国内市场需求远得不到满足,一部分海外归国的数字人才相对日益井喷的人才需求缺口而言是杯水车薪。依靠本土高校培养出大规模、高质量的数字人才是有效支撑国家数字经济发展战略的必由之路。

二、国内外数字人才培养体系建设现状

与欧美顶尖大学相比,国内大学在学科建设方面存在片面强调单一学科发展的问题。随着经济社会的进一步发展,新的学术问题不断涌现,新的方法论和研究手段也越来越多,原有过于细化的学科划分掣肘了符合新时代要求的人才培养(张平文,2020)。培养数字人才的关键在于高校不断完善数据科学教育体系。本文重点对欧美国家和我国的顶尖大学数据科学教育体系建设历程进行梳理与总结。

(一)美国高校数据科学教育体系建设情况

数据科学本科专业推广之前,许多美国大学就根据市场需求以及学院优势开发数据科学类硕士项目,并联合不同学院成立大数据科学研究所,共同开展数据科学教学和研究工作。2016年12月份,来自美国25个本科院系的专家学者团体在2016届本科学科建设大会上提出一整套数据科学学科的建设方案,并列出数学、计算机科学和统计学三个学科领域的重点课程(Veaux等,2016),[2]其中数学课程开设微积分、线性代数、概率论、离散数学等;计算机科学课程开设计算机科学导论和数据算法、计算机系统与架构、数据库、软件工程等;统计学课程开设统计学导论、统计建模与回归、机器学习、数据挖掘、统计理论等;其他还建议配套教学科技论文写作、演讲学以及伦理学等课程。

作为全球科研中心和大数据的发源地,美国高校数据科学建设相对比较成熟。一方面充分利用校内资源优势来开展教学,将原有特色专业与数据科学交叉结合,在学科创新过程中产生新方向、新思路、新人才(朝乐门等,2018);[3]另一方面重视校企合作,提升学生的实际应用能力。从培养目标来看,大部分美国高校旨在培养数据科学领域的领导者,注重培养数据分析师和应用型数据科学家,具体而言侧重培养学生运用数字化的新工具和新方法,从现实数据中获得洞见后能有效阐释研究发现,以培养改变他人行动和思想的能力,这类代表高校有加州大学伯克利分校、约翰·霍普金斯大学、华盛顿大学等。另有高校侧重于培养统计学家,特点是将数据科学作为统计学的一个分支,强调数据科学与统计学的深度融合,代表高校有斯坦福大学等。还有高校侧重于培养数据科学家,强调跨学科方法,重视统计学、计算机科学和具体应用领域知识的深入融合,因此数据科学专业分散在多个学位项目中,如公共政策、信息系统管理、工商管理、计算数据科学、智能信息系统、统计实践等,代表高校为卡内基梅隆大学。

(二)欧洲高校数据科学教育体系建设情况

欧洲是高校的发源地,在学科建设上一直走在世界前列。随着数字时代的到来,欧洲高校同样在数据科学教育体系的各个方向都进行了有益探索,欧洲数据科学体系建设主要表现为以下四类模式。

第一类是统计学主导模式。欧洲很多高校设计了偏向统计学方向的数据科学教育体系,如英国伦敦政治经济学院和伦敦大学学院,强调学生能够应用数据科学和统计方法来解决真实世界的问题,运用严谨的统计思想并使用现代计算方法来解决复杂的技术问题。以伦敦政治经济学院为例,数据科学专业的学生将获得全面的理论基础,必修课程包括数据管理与可视化、数学分析和统计方法、机器学习与数据挖掘,选修课程包括大数据和统计的分布式计算、金融统计、风险管理和保险的概率方法等。

第二类是数学主导模式。偏向数学方向的数据科学教育体系建设,强调数据编辑和数据分析技巧,如将抽象复杂模型进行组合和重新开发以推导预测和分类模型的能力。例如,慕尼黑工业大学数据工程与分析硕士学位着重培养处理和分析大量数据的新颖方法和技术,具体包括数据工程、数据工程与分析、数据分析三个研究方向。

第三类是计算机主导模式。偏向计算机学科方向的数据科学教育体系建设,强调运用机器学习、图像分析、数据安全和网络安全等方法培养大数据处理和分析应用能力。这类学校的优势学科是计算机科学,侧重学生信息技术专业技能的培养与训练。以雷丁大学为例,数据科学专业的高级计算机硕士项目主要面向计算机科学相关专业的毕业生、IT专业人员和数据分析师,着重培养大数据分析及其在各个领域的应用能力,包括天气预测、通信数据流分析、计算机视觉应用以及网络安全等方面。

第四类是综合学科模式。偏向综合学科式的数据科学教育体系建设的高校,如英国帝国理工学院、伦敦城市大学和法国综合理工大学,强调数学、统计学和计算机学科以及商业学科的紧密结合。这些学校会提供学生到大型科技公司的实习机会,培养学生全面的数据思维、数据技术和大数据研究方法,让学生获得数据技术、科研、战略、商业等方面技能。以帝国理工学院为例,数据科学专业培养统计学、计算机学、商业分析、生物医学等四种理学硕士,其中统计学理学硕士又分为统计学、应用统计学、生物统计学、统计金融学、理论与方法等多个方向。最能体现综合特色的是商业分析理学硕士课程体系,必修课包括会计、财务、商业分析数学,选修课包括商业分析、数据结构和算法、数据库技术、数学和统计基础、网络分析、优化和决策模型、统计和计量经济学等。

(三)国内高校数据科学教育体系建设情况

面对快速发展的数字经济,以及对数据人才的强劲需求,我国亟待建立和完善数据科学教育体系,为实现“数字中国”战略提供人才资源支撑。在国内,数据科学专业建设在近几年受到了政府、高校和产业界各方的高度重视,处于快速发展过程中。本文将对国内率先探索建立数据科学专业的高校进行简要介绍。

北京大学是国内数据科学建设最早的一批高校。2016年,北京大学成为教育部批准开设大数据专业的三所高校之一,建立和完善了数据科学专业课程体系,研发了教学实训平台,开创了国内数据科学教学模式。北京大学数据科学与大数据技术专业培养方案主要设置统计学习、应用与计算数学、信息科学和领域专题研讨这四个模块课程:统计学习模块包括数据科学导引、高等统计学与概率论、因果推断等课程;应用与计算机数学模块包括凸优化、数值代数、并行计算、偏微分方程数值解等课程;信息科学模块包括自然语言处理导论、数据库原理与技术、数据可视化、数字视频分析与理解、应用密码学等课程;领域专题研讨模块包括医学科研数据挖掘、药学信息学、保险大数据、时空大数据等课程。为了服务国家战略需求,解决最紧急、最核心、最紧迫的实际问题,北京大学围绕大数据分析与应用技术国家工程实验室这一枢纽中心积极打造大数据学术创新链,探索满足数字政府建设、数字经济发展、数字社会完善和数字生态繁荣等现实需求的综合人才培养模式。

中国人民大学依托统计学院、信息学院共同建设了数据科学与大数据专业,并联合北京大学、中国科学院大学、中央财经大学、首都经贸大学于2014年在全国首创了五校联合的大数据分析硕士培养协同创新平台。数据科学与大数据技术专业本科生培养方案关注学生在数学、计算机、统计学等基础知识方面的教育,相关课程偏重产业实践,基础课程内容沿着数据处理的全部过程展开,包括数据抽样、数据预处理、数据探索性分析、数据可视化展示等基础知识,也包括大数据挖掘与机器学习、大数据统计建模、非结构化大数据分析等基本技能。另外依托于商科和经济学的传统优势,通过创建数字治理及数字经济研究中心、举办数字经济理论与实践论坛等方式,探索数字经济专业方向的人才培养模式。

中南大学是首批开设数据科学与大数据技术专业的高校之一,教学侧重于计算机科学方向。该专业于2016年开始统一招生,培养方案中将数据科学的培养分为基本理论及数据架构、数据分析、数据应用三个层面。由于中南大学信息安全与大数据研究院的前身等历史原因,具体课程包括计算机科学与技术、软件工程、信息与通信工程、网络空间安全、数学等基础学科,领域知识多与信息安全和医疗大数据有关。

上海财经大学数据科学与大数据技术专业教学侧重于商科方向。该专业硕士项目于2017年开始招生,以培养高水平、复合型的财经大数据人才作为支持财经行业数字化转型升级的重要抓手。在人才培养方面强调实践性教学环节与专业实验相互结合,与中国电信、IBM、国金证券等企业合作建立实习基地,通过对真实数据资源的分析建立“干中学”培养方案。

以上高校分别代表国内高校数据科学体系的基本类型,总结来看具有两大特征。一是充分体现交叉学科特征,课程设置基本涵盖了数学、统计学、计算机学科和大数据实践这四类领域的所有基本知识。二是侧重大数据领域应用人才的培养。学生不仅要掌握基本的数据科学基本原理与方法,还要精通大数据在某一领域的应用知识,以成为具有专业特色的数字人才。

三、面向新时期数字人才培养的数据科学教育体系框架

高校和科研院所是为新兴产业发展提供智力支持的教育基地,对培养适合当今社会实际需求的数字人才责无旁贷。我国政府高度重视数据科学教育。2015年8月31日,国务院印发《促进大数据发展行动纲要》,其中指出要加强大数据相关专业人才培养,鼓励高校设立数据科学和数据工程相关专业,重点培养专业化数据工程师等大数据专业人才,鼓励采取跨校联合培养等方式开展跨学科大数据综合型人才培养,大力培养具有统计分析、计算机技术、经济管理等多学科知识的跨界复合型人才。

数据科学是一个典型的交叉学科。2010年DrewConway提出了第一张揭示数据科学地位的维恩图,认为数据科学是一门以统计学、机器学习和领域知识为理论基础的新兴学科,并且数据科学家需要具备数学与统计学知识、领域实践和黑客精神。朝乐门,邢春晓和张勇(2018)提出,数据科学的三个基本要素是理论(数学与统计学)、实践(领域实务)和精神(黑客精神)。因此,数字人才需要具备三方面素质:一是理解和运用算法和模型的理论性能力;二是处理实际数据的实践性能力;三是利用大数据方法解决具体行业实际问题的应用性能力(欧高炎等,2017)。[4]根据国内外高校在数据科学教育体系建设方面的经验,我们认为数字人才需要在数据科学的专业体系中进行培养,在课程设置上需要强调基于数学、统计学和计算机等学科的交叉特征,同时注重针对某个行业的大数据应用和实践能力培养。因此,数据科学教育体系需要从四个方面进行构建,如图1所示。

图1 数据科学教育体系框架图

一是培养数据逻辑的支撑学科,包括数学、统计学和计算机学科等基础学科的基础课程,主要介绍有关数据的计算和分析方法。数学中与大数据技术有密切关系的基础内容主要是概率论与数理统计、线性代数、最优化方法、离散数学等(曾剑平,2017),[5]是数据分析和数据建模的理论基础。数据科学与统计学的关系主要体现为推断统计学,因为预测是大数据的核心价值体现,而统计学主要通过利用概率论建立数学模型,并通过抽样的方法进行数据分析,以因果假设检验为基本方法。数据科学与计算机学科的关系最为密切,数据库知识和技术、分布式系统、计算机语言等都是大数据的基础知识,例如分布式系统的开发与运营使得基于海量数据的存储与计算变得可行,计算机语言使得基于数学和统计学的计算方法可以通过计算机来实现。

二是有关数据知识的核心内容,是对数据从产生到应用的整个生命周期过程中的知识进行学习,包括数据采集与治理、数据存储与管理、数据分析、数据可视化、数据安全与应用、数字经济与制度等。数据采集与治理指的是要能够对来自传感器和互联网等大数据资源进行感知与获取,如网络爬虫等技术;数据存储与管理方面要了解大数据架构的数据库知识,如Hadoop、Storm和Spark等;数据分析指的是要从大量的结构化、半结构化、非结构化数据中分析出人可以理解的有价值信息,包含机器学习、深度学习、自然语言处理、知识图谱等方法;数据可视化是对数据分析结果的可视化展示与解释,如通过图形、图像处理,计算机视觉以及用户界面来表达;数据安全与应用方面要了解网络安全技术以及密码学知识;最后数字经济与制度是从宏观角度了解数据作为新的生产要素对经济模式的影响和社会制度的改造等知识,如数据产权、数据权利、数据主体等。

三是有关前沿信息技术的关联学科,包括物联网、云计算、人工智能、区块链等前沿热点技术课程。物联网是重要的数据来源,能够推动大数据处理技术在很多应用领域的落地实践。云计算是大数据处理的基础,分布式存储和计算架构为大数据的快速处理和智能分析提供了一种合适的解决方案。人工智能是大数据技术在具体场景中的应用,促进了以感知为中心的人工智能范式的发展,例如无人驾驶和智能机器人正在成为研发热点等。区块链将为数据的可信确权与交换交易提供技术保障。

四是有关数据实践知识的应用学科,包括时空大数据、交通大数据、健康医疗大数据等课程。大数据技术如今以超出预期的速度逐步深入到各个行业和国民生活中,在互联网、金融、商业、电信、医疗健康等行业掀起了一场数据革命,改变着这些行业的运营方式和盈利模式,使民众体会到智能交通、智能医疗、智慧城市等以大数据技术为核心的城市智能化便利。数据科学一定要与各相关领域知识相结合,设置应用类学科,培养满足不同行业对大数据技术应用需求的人才。

四、数字人才培养体系前景展望

数字人才是长期投入和持续培养的综合结果,需要全国高校进行长期系统的专业体系建设,更需要强大的师资力量和完善的学科体系来做支撑。未来需要继续完善核心数字人才培养体系,在加强数据科学教育体系建设的基础上,进一步促进学界与业界的人才流通,夯实数字人才满足市场需求的实践基础。

提高数字人才的实践性与应用性。数据科学教育体系的发展是由实际问题驱动的,关键突破点都是来自解决实际问题的需求,比如深度学习就是在解决计算机视觉的实际问题过程中发展起来的。与此同时,很多大数据计算和分析技术的突破也会很快促进产业发展,如深度学习的科研成果往往很快就被谷歌、百度等企业运用到图像、语音、文本分析等许多领域。因此有必要将数据科学教育与行业应用实践紧密结合起来。为了将行业实践中真实产生的大数据直接使用到数据科研和教学过程中,有必要依托数据资源丰富的政府单位或企业组织搭建一个大数据实验平台或实训基地,提高教学内容的实用性和实践模拟情境的实操性。只有立足实际问题需要,将教学内容与社会需求对接,学习的知识技能与行业应用接轨,高校才能为社会培养出解决实际问题的数字人才。

施行按需施教的培养策略。从人才类型上来看,数据科学教育体系建设的目标是培养四类数字人才,即前沿问题研究的数据科学家、职场中的数据分析师、商业创新中的数据工程师以及面向高校的数据教育家。按照社会对这四类数字人才的需求,可以安排不同的课程体系和培养方案。例如,可以构建“1+X”的数字人才培养模式,其中1代表基础理论和科研方法,X代表按照特定数字人才培养目标,或者面向不同应用领域的人才需要,而构建成基础知识统一且实际功能多样的课程体系与培养方案。这些方案要寻求多学科协作和信息资源共享,还要针对数据的收集与爬取、清洗与降维、分析与挖掘、结果与展示等实践知识进行教育体系的突破性改革。

引导数据科学的有序发展。面对目前数字人才培养结构与市场需求岗位结构的不匹配问题,政府和教育管理部门应给予相关政策支持,鼓励和促进高校在产学研合作中发挥引领作用,加强基础研究型人才的培养。同时政府还应加强宏观调控力度,引导高校学科专业建设因地制宜发展,不断探索和完善“高职-本科-硕士-博士”不同层次的数据科学课程开设和培养模式,并随当前和当地数字经济核心产业发展及时调整、优化人才培养结构。

猜你喜欢
数字科学人才
人才云
点击科学
科学大爆炸
忘不了的人才之策
留住人才要走心
“人才争夺战”
答数字
数字看G20
科学拔牙
成双成对