基于俄罗斯东部地区多维度指标大数据分析的大学生创业探索

2018-08-10 09:33赵龙王强王天华华晓杰由建伟

课程教育研究·学法教法研究 2018年30期

关键词：创业大数据维度

赵龙王强王天华华晓杰由建伟

【摘要】本文基于对俄罗斯东部地区的政治、经济、社会及文化等方面的大数据采集、清洗以及建立数据分析模型，同时利用相应规则进行数据挖掘。最后给大学生创业提出了指导性建议。

【关键词】大数据维度创业

【基金项目】黑龙江省教育科学规划项目（GJD2015070），黑龙江省高等教育学会项目（16G389），黑龙江东方学院教学改革研究项目（HDFHX170315）。

【中图分类号】 G647.38 【文献标识码】A 【文章编号】2095-3089（2018）30-0268-02

引言

从历史维度看，人类社会正处在一个大发展大变革大调整时代。世界多极化、经济全球化、社会信息化、文化多样化深入发展，和平发展的大势日益强劲，变革创新的步伐持续向前。各国之间的联系从来没有像今天这样紧密，我们东北三省的高校学生一定要深入理解我国的“一带一路”与“欧亚经济联盟”的内涵，充分思考如何利用中俄东部地区合作开发的契机进行创业实践。本文主要论述了基于俄罗斯东部地区政治、经济、自然、社会以及文化等综合指标大数据分析的大学生创业探索的关键路径。

一、俄罗斯东部地区多维度指标大数据采集与清洗

1.数据采集的维度

（1）政治維度

虽然经济决定政治已是大多数人的共识，但我们决不能忽视政治对经济的反作用。俄罗斯为了加快东部地区开发的步伐，非常重视同世界各国的合作，出台了一系列优惠政策。但是我们知道，任何国际合作都是在维护本国利益的前提下进行的，所以再具体国际合作开展过程中存在各种各样的摩擦和阻力，俄罗斯也不例外。我们需要将“政治”因素作为主要的维度进行数据采集。

国家的“一带一路”战略给我们带来了前所未有的创业机遇。“一带一路”倡议是当今时代最宏大的一体化构想。近年来，俄中在基础设施、物流、自然资源开采和加工等合作领域取得了重要进展。

（2）经济维度

俄罗斯东部地区自然资源十分丰富，在经济运行中以资源为依托获取财富积累，使得东部地区不论是经济结构还是主导产业选择都标有浓重的资源印记，同时时间的推移东部地区在经济发展过程中依赖资源拉动增长的弊端也日益凸显。俄罗斯基本经济特征可归纳为以下两点：

1）产业结构单薄且不均衡：由于历史上远东地区曾被作为苏联时期国家军事前沿的重地，远东地区的开发使其经济结构形成“畸轻畸重”和“原料化”的特征。区内重工业、军事工业发达，而轻工业落后，农业发展低效，第三产业不发达。但本地区蕴含着十分丰富野生鱼类和动物资源和原生态的旅游资源。在远东发展基金支持下，俄远东地区正在实施一批重大项目，其中包括建设“滨海1号”和“滨海2号”国际交通走廊。两国农业部门正在为让中国消费者能够享用俄远东绿色生态的农产品而不懈努力。

2）人口稀少造成经济规模十分有限：俄罗斯东部地区拥有1200多万平方公里的土地，而人口却仅有不到2600万，人口密度仅为2人/平方公里。俄罗斯政府2007年提出的东北大开发战略，但由于劳动力资源的稀少，使这一国家经济战略收效甚微。东部地区的人口问题也造成了其市场十分有限。俄政府制定的“远东及外贝加尔地区开发规划”迟迟未有多大进展，多年来，由于俄的疑虑和担心，以及经济不景气导致投入不足，远东地区开发实际上并没有得到深入推进。

（3）其他维度

除政治、经济维度外，为了使我们的数据模型更加完善我们还要从自然、社会以及文化三个维度去采集数据。很多人将“社会”和“文化”这些软指标忽视，其实社会的意识形态和文化特征对我们进行跨境合作、跨境创业的成败是很有影响的。

2.数据清洗的必要性与过程

数据清洗（Data cleaning）是对数据进行重新审查和校验的过程，目的在于删除重复信息、纠正存在的错误，并提供数据一致性。为了使模型有更加稳定的输出，我们要将俄罗斯东部地区政治、经济、自然、社会以及文化等综合指标数据中的“噪声”去除。

数据清洗，一般是这么几个过程：标准化、归一化、降维。

（1）标准化（数值化）

由于原始数据往往存在各种不同格式的数据形式，比如如果你要处理的数据是数值型，但是原始数据也许有字符型或者其他，那就要对其进行标准化操作。处理的方式可以很简单也可以很复杂，我采取过的一个方法是：对字符串取值，按照ANSI码值求和得到字符串的值，如果值太大，可以取一个适当的质数对其求模，本质上就是映射到一个区间了。然后就得到数值型的数据了。

（2）归一化

由于原始数据各个维度之间的数值往往相差很大，比如一个维度的最小值是0.01，另一个维度最小值却是1000，那么也许在数据分析的时候，计算相关性或者方差啥的指标，后者会掩盖了前者的作用。因此有必要对整体数据进行归一化工作，也就是将它们都映射到一个指定的数值区间，这样就不会对后续的数据分析产生重大影响。

（3）降维

由于原始数据往往含有很多维度，也就是咱们所说的列数。比如对于银行数据，它往往就含有几十个指标。这些维度之间往往不是独立的，也就是说也许其中之间若干的维度之间存在关联，也许有他就可以没有我，因此咱们可以使用数据的相关性分析来降低数据维度。我使用过的一个方法是：主成分分析法。

二、数据模型建立与数据分析

数据模型主要包括的功能为数据的关联性分析、数据相关性分析、数据聚类分析、数据回归分析等。其中，数据相关性分析模块是指在相应的路径下导入所需要的分类文件，之后选择变量，应用MTC的方法来对变量相关性问题展开分析。借助多变量之间的相关性数据分析来对数据中各个变量的关联大小问题进行分析。数据关联分析模块能够应用关联性的规则算法来来对各个数据之间的影响问题展开分析，在分析之后确定数据之间有效的关联规则。数据分析分类模块需要在一定路径下导入分类数据文件。数据聚类分析模块能够借助数据间相关性的大小问题来实现对导入数据信息的自动化分类管理。

三、数据挖掘

通过介绍神经网络以及数据挖掘技术，针对目前大学生自主创业中存在的种种困难，利用数据挖掘中的神经网络方法实现俄罗斯东部地区政治、经济、自然、社会以及文化等综合指标大数据分析，从而挖掘出比较适合大学生自主创业的选择。

通过对各个维度的数据进行分析和挖掘，结合大学生可抵御风险水平得到如下结论：1）采用互联网+模式进行创业为最优模式。2）绿色食品与跨境自助游是优选创业方向。3）创业团队中最好要有俄罗斯高校的学生或俄罗斯留学生。3）有了“互联网+”平台，边贸不再只是职业商人的专利。4）国家的“振兴东北”政策给我们大学生创业实践提供了内生动力。