基于大数据时代下计算机信息处理技术研究

2021-11-18 00:42徐维坚

科技信息·学术版 2021年26期

徐维坚

摘要：自2008年首次提出“大数据”概念以来，基于大数据的计算机信息处理技术日新月异，极大的丰富和改善了人们的生活方式。人们生活方式的改变又进一步的促进了大数据信息处理技術的发展，同时也对大数据信息安全提出了挑战。本文从大数据的生命周期角度出发，立足大数据的5V特征，系统研究了大数据各个生命周期环节中所使用的计算机信息处理技术和信息安全技术，提出应当采用哪些技术来进行大数据的分析和处理，并保证这些环节的大数据信息安全。最后，对大数据时代下所面临的挑战，给出应对措施，以提高企业机构应对风险和挑战的能力，推动大数据产业的发展和变革。

关键词：大数据;信息处理;生命周期;安全

Abstract：Since the concept of "big data" was first proposed in 2008，computer information processing technology based on big data has been changed rapidly，greatly enriching and improving people's way of life. The change of people's way of life has further promoted the development of big data information processing technology，but also challenged the security of big data information. Based on the 5V characteristics of big data from the perspective of the life cycle of big data，this paper systematically research the computer information processing technology and information security technology used in all stages of the life cycle of big data，and puts forward which technologies should be used for the analysis and processing of big data，and ensure the security of big data information in these stages. Finally，to improve the ability of enterprises to respond to risks and challenges，and promote the growth and transformation of the big data industry，I give some measures to address the challenges in the era of big data.

Keywords：Big data;information processing; life cycle; security

前言

2008年9月美国《自然》杂志专刊——The Next Google，第一次正式提出“大数据”（Big Data）概念。在该专栏中，研究人员和商业人士为我们描述了未来十年影响人类的前瞻性技术，其中很多已经实现或是近似实现，如电子阅读器（ELECTRONIC PAPER）、VR设备（VIDEO VISORS）、语义分析与智能推荐（THE SEMANTIC WEB，BETTER BROWSERS）等。

但具体“大数据”所指是什么，尚没有明确定义。直到2011年5月，麦肯锡研究院发布报告——Big data：The next frontier for innovation，competition，and productivity，才第一次给出了大数据较为清晰地定义：大数据是指其容量超出了常规数据库大小的数据池，数据池中的数据可以被获取、关联、聚合、储存和分析，已经成为全球经济各个环节中的一部分。从该份报告中，我们可以看到，大数据在经济领域发挥着越来越重要的作用。

1 大数据时代中计算机信息处理技术

经过这些年的发展，大数据的特征，也由早期的3V特征——规模大（Volume）、速度快或时效快（Velocity）和种类多（Variety），发展到现在的5V特征，增加了价值（Value）和可靠性（Veracity）两个特性。这些特性反映了大数据技术的目的是：处理超大规模数据，保证很高的时效性，从多样的数据集中提取出有价值的数据，并且确保原始数据的可靠性，从而产生有效益的创新数据，来辅助观察、决策和过程控制。

1.1 大数据采集技术

首先第一步，对“大数据”进行数据采集。在采集过程中，首先面临的难题是采集的数据体量非常巨大，即“大数据”的首个特征“规模大”。其次是数据类型丰富，结构化、非结构化、半结构化的数据种类繁多，即第三个特征“种类多”。最后是数据以“分布式数据库”形式存储在不同形式的数据库中，其时效性难以保持。传统数据库采集方式面对体量如此庞大、种类如此繁多的“大数据”难以胜任，越来越无法满足大数据的采集要求。因此有必要使用新的采集方式来完成大数据的采集工作，当前发展比较成熟的大数据采集技术有：

第一种，系统日志采集技术。如基于Hadoop的HDFS和Map Reduce构建的Chukwa框架，它采用分布式架构，能满足每秒数百MB的日志采集和数据传输需求。很多企业的业务平台使用该框架来处理每天产生的大量业务数据，这些数据结构化程度高，易于后续的数据处理与分析。

第二种，网络数据采集技术。该技术是通过网络爬虫，或是通过一些公开的API接口来获取网络数据。但是网络上获取的数据，大多以非机构化和半结构化的数据居多。对于这些数据，需要进一步进行处理。目前常用的网页爬虫技术有Apache Nutch、Scrapy、Crawler4j等框架，这些框架各有优劣，需要工程师根据业务形式去取舍，或是进行二次开发。但是爬虫技术可能会遭到一些平台的反爬限制，从而导致采集终止或是采集数据不理想，这个时候需要不定期变更代理服务器，避免被封。

第三种，数据库采集技术。这种方法，多用于传统的关系型数据库，对已经稳定的系统或平台友好，能够保证企业每时每刻都能将产生大量的业务数据写入到业务平台数据库中。使用这种方式的企业，还需要建立相应的数据仓库、数据总线或是数据中台，以便进行后续的大数据综合分析和处理。

1.2 大数据预处理技术

对于采集的数据，不能直接存入到数据库或数据仓库中，需要进行数据清洗、数据集成、数据规约、数据转换和数据离散化等步骤，将数据处理成可以用于数据挖掘的信息。由于获取的数据量十分巨大，且数据结构不完整、不一致、含脏数据，所以在大数据预处理上将花费大量的时间，大约需要占到整个数据挖掘过程中60%以上的时间[5]。

在数据清洗过程中，需要利用自动填充空白值、紧邻值补齐、贝叶斯公式等方法来填充缺省值。利用分箱技术（Binning）对数据进行分类，识别出噪声数据和离群数据，然后对噪声数据剔除，对离群数据进行纠偏;或者利用回归技术（Regression）对数据进行拟合，平滑数据，消除噪声数据和离群数据的影响。最后对不一致的数据进行纠错处理，输出满足“准确性、完整性、一致性”要求的数据。

清洗完毕后，再对数据进行集成和规约，该过程需要合并不同数据源，去除重复数据。接着对数据进行归一化、标准化和去中心化，消除不同数据源之间的差异，统一数据的属性、度量单位、数据值范围等。然后对数据进行规约，需要用到的策略有：1）维规约，即减少随机数据，将数据投射到更小的空间，降低维度，具体方法有小波变换（WT）和主成分分析（PCA）技术;2）数量规约，用较小的数据替代原始数据，如抽样和“数据立方体聚集”技术。

最后对规约好的数据进行转化和离散化，一般是将参与模型计算的分类数据和有序数据转换成数值型数据，将连续性数据离散化，方便模型计算。常用的方法有K-means聚类离散化算法和数据分箱算法。

1.3 大数据存储技术

虽然预处理完毕的大数据相对于单个数据源来说，有一定程度的裁剪，但不同来源、不同形式的数据依然是海量数据，传统的数据库存储技术无法满足如此海量数据存储的要求。以分布式文件存储为核心的HDFS存储方式很好的解决了海量数据存储的问题，已经在被应用到很多企业的大数据平台上。随着网络存储的不断发展，以“云存储”为代表的网络分布式存储方式正在被越来越多的中小企业所青睐。这些企业尚无能力建立起自己的大数据存储平台，借助“阿里云”、“百度云”等云存储技术可以快速实现自己的大数据存储。“云存储”充分发挥了网络虚拟化技术的优势，合理划分、安装及调度虚拟云服务器资源，提高了数据存储和索引的速度，保证了大数据挖掘和分析的时效性。

1.4 大数据挖掘与分析

数据挖掘与数据分析是大数据处理流程中重要的一环，也是体现大数据产价值的关键一环。数据挖掘，是从大数据中挖掘出隐藏其中的、不为人所知的、有潜在价值的、新颖的信息的过程，如经典的“啤酒与尿布”的案例。该过程对技术水平、算法精通程度有很高要求，常用的挖掘算法有神经网络方法、遗传算法、ID3决策树、支持向量机和K近邻分类算法（KNN）等。而数据分析，则侧重于利用统计学知识，从中提取有用信息，并形成结论，以辅助决策，更多是详细研究和概括总结的过程，常用的分析方法有漏斗分析法、关联规则、回归分析、指标分析等方法。

1.5 大数据可视化与应用

最后，将从大数据中挖掘出来的信息和分析提取而来的信息，通过可视化相关技术，呈现给用户（尤其是决策者），以帮助其在纷繁复杂的大数据面前，能有效的抓住核心价值信息，提高其管理水平，帮助其挖掘更多的商业价值，做出更正确的决策。目前国内外很多企业，都在建设自己的大数据可视化平台，其中较为成熟的可视化平台形式有BI系统和数字孪生技术。其中BI系统是通过建立数据模型，建立关键指标，以图表、2D/3D地图、指标数据等形式，来展现业务的监测情况和研判结果，并提供智能预测，如由兰州大学自主研发的“新冠肺炎疫情全球预测系统”。

2 大数据时代下信息安全技术研究

上一章节系统阐述了大数据信息处理各个阶段的关键技术和方案，按照上述流程可以较好的完成大数据的采集、处理和分析等工作，但是不能保证各个环节的数据安全、网络安全和信息安全。现今频频发生的数据泄漏和黑客攻击时间，严重降低了人们对大数据技术的信任，使得人们对大数据技术的安全产生了怀疑，影响了大数据的发展进程。本章节将系统分析大数据生命周期中关键的安全技术。

2.1 大数据采集安全技术

大数据采集作为大数据生命周期中第一步，其安全技术至关重要，决定了数据的质量和可信程度。上一章节中，我们提到三种采集技术：系统日志采集方法、网络数据采集方法、数据库采集方法。

第一种和第三种采集方法，主要来源于企业自有平台或可信的外部系统，传统的安全技术，如防火墙技术和虚拟专用网络技术，可以有效的保证大数据采集的安全。其中常用的SSL VPN技术可以进行数据加密、完整性检测和身份认证，配置简单，无需安装特定软件，可有效保护局域网内的网络拓扑结构，保证数据在安全通道中流通，保證大数据采集的安全。

但是第二种方式，网络数据采集方法，由于采集的数据量大、来源多、种类复杂，且无法保证数据的真实性和完整性，也无法有效识别并剔除掉其中虚假或恶意的信息。一旦大数据采集器被黑客攻击，注入脏数据，当其注入的脏数据达到一定规模后，将会将数据分析引入歧途，从而对大数据使用者造成误判，导致其出现损失。这种攻击手段比较隐晦，短时间难以发现。第二种采集方式所面临的问题，目前尚无比较有效的技术来有效防范。不过，我们仍然可以通过一些举措来加以控制。本人认为，可以采用“评分等级”来控制，具体步骤为：1）首先对所涉及到的数据源，进行量化评级。级别越高，表示该数据源质量高、可信度高、安全系数高，对应将其采集权重设置的更高。2）对相同评级的数据源，进行相互补充，相互印证。出现矛盾数据时，哪个更贴近更高级别的数据范围，就保留哪个数据。3）对于无法印证其来源的数据，视为孤立点，予以剔除。当然上述实施方案，不能完全依赖于机器自动识别，必要时可以人工介入，及时调整数据源的等级权重，避免受到极值干扰。

2.2 大数据预处理安全技术

在大数据预处理阶段，重点是需要保证数据的质量。数据质量的好坏直接影响后续的数据分析与挖掘。如何保证数据的质量，关键是在数据清洗、集成、规约、转化和离散化过程中，保证“不一致校验”有效。目前较为有效的方式有：1）分布式违反条件函数依赖（CDF）检测方法;2）判断导致数据质量问题的原因是数据一致性还是约束一致性。

另外，在大数据预处理阶段，有一些数据需要加密处理，如个人敏感数据、企业机构机密数据、公共安全数据（如小区摄像头位置与生产厂商等敏感数据）等，需要进行脱敏处理。数据脱敏，简而言之就是对敏感数据属性进行转化，使得该部分原始数据失真，但其他数据和其他属性不受干扰，也不影响候选数据的分析与处理，从而达到保护的目的。该过程，可以用对称或非对称加密技术实现，也可以用随机数或特殊字符来进行数据脱敏，前者可以让授信方通过解密查看，而后者则会丢失原始数据，有一定的局限性。

2.3 大数据存储安全技术

在大数据存储阶段，需要保证分布式数据库、数据仓库和云存储等大数据存储的安全。这一阶段除了在物理层面上保证数据存储设备的安全外，还需要保证数据存储、变更、访问等过程中的安全。

对于数据存储，需要建立完备的数据备份和数据恢复机制，来保证机器发生故障时，能够快速恢复数据。常用的方式有异地备份，建立数据镜像，对数据进行定期快照。

对于数据变更和访问过程，需要设立安全可靠的访问机制。可以通过Kerberos认证、PKI公钥认证、动态口令等技术来确保访问者是可信用户。其中动态口令认证机制，能有效解决了静态口令不安全的的问题，其基本原理是：在客户端登录时，通过秘密通行短语（SPP，Secure Pass Phrase）来加入不确定因素，保证用户每次认证的数据都不相同，有效提高身份认证安全性。

同时设计合理的权限管理机制，对大数据访问的粒度进行控制。常用的技术方案有：1）基于属性加密的访问控制，该方式是利用密文机制来控制访问客体，如用于访问静态数据的KP-ABE算法（基于密钥策略的属性加密），以及用于云计算的CP-ABE算法（基于密文策略的属性加密）;2）基于角色的访问控制，该方式通过将用户划分成不同角色，每个角色给予不同的访问权限;该方式是通过建立数据信任模型来控制数据在安全范围内进行访问，保证了即使出现“内鬼”，数据也不至于被大量泄漏。

3 大数据时代信息处理技术面临的挑战和应对措施

大数据发展至今，已经有十余个年头，期间不断出现新的问题、新的挑战、新的突破。其中主要的问题和挑战，有以下几个方面。

3.1 大数据信息质量堪忧

由于目前大数据研究还处于发展阶段，各行各业的大数据应用参差不齐，所使用的技术也是良莠不齐，导致大数据在采集和处理过程中，很难保证大数据的信息质量。前文提到在大数据的采集和預处理阶段，需要采用分箱技术或是线性回归等技术对数据进行清洗。这在一定程度上可以提高大数据的质量，但仍然不能保证所有的数据都能达到准确性、一致性和有效性的三个要求。因此，学术界和产业界需要在这些方面不断优化算法，调整模型，改善方法，以进一步提高所处理的大数据信息质量。

3.2 信息安全问题日益突出

当前大数据信息处理技术还不够成熟，技术实现上还不够完善，一些大数据技术框架还存在漏洞。如2017年，Hadoop提权漏洞CVE-2017-7669，导致黑客可以拿到Root权限（最高权限）。除此之外，还有一些大数据安全事故是由于疏于安全管理，导致安全制度形同虚设。如数据分析公司Polecat今年近30TB业务数据遭到破坏，其根源是该公司一台存储了大量员工用户名和密码的ES服务器竟然没有任何身份验证或其他加密措施的保护。再有一些公司或者企事内部员工为了自己的私利，利用自身技术手段或特殊权限，非法获取用户敏感信息，或倒卖用户个人信息获利，如2017年京东内部员工涉嫌窃取50亿条用户数据案件。

为了解决上述问题，需要研究人员不断加大大数据安全技术的研究和应用，不断完善现有数据安全技术。同时，企业和机构需要建立起严格有效的大数据安全体系。建立大数据安全体系，一是要政府和职能机关发挥监督监管作用，加大大数据方面法律、法规和标准的制定，约束大数据各个环节中的行为，对不符合法律法规的大数据信息处理行为进行有效惩戒，同时制定相应的大数据安全标准，促进大数据的发展;二是企业和机构加大大数据的安全审计力度和审计技术的研发，利用基于日志、基于网络监听、基于网关等审计技术，来监控大数据处理活动，及时发现隐患，避免出现事故。

3.3 人才发展不均衡

当今世界，技术发展日新月异，竞争日益激烈。说到底是人才的竞争，科技的竞争。当前国内大数据从业人才严重匮乏，与国外相比，国内从业人员专业化程度较低，技术技能还存在较大差距。大数据的关键不是信息采集和信息本身，而是大数据的分析和处理的过程，这个过程依赖于从业人员的专业素养。若没有一支专业化的人才队伍，就如没有良好设备的掘金者一样，只能望“矿”兴叹，那大数据信息处理技术和安全技术也就无从谈起。而建设这样一支人才队伍，需要社会各界共同努力。学校和科研机构应当建立或完善大数据相关专业的培养方案，政府可以给大数据企业、机构和人才提供一定程度的政策倾斜，社会各界提倡良好的人才观，避免过分追逐热门专业，而忽视了基础学科、关键技术和重要领域的建设与发展，保证人才均衡可持续发展。

4 大数据时代下计算机信息处理技术展望

未来，大数据发展方向如何，学术界和产业界看法不一。虽然众说纷纭，但下面几个发展方向，在未来定会得到更大的发展：1）大数据基础研究得到突破，在大数据信息处理技术层面不断涌现新的算法、规则和技术方案，例如云计算方向的发展;2）大数据系统工程不断改善，涌现出一批优秀的大数据技术工具和框架，为大数据的分析和处理奠定坚实基础;3）大数据安全技术得到有效发展，更多安全可靠的安全技术被应用到大数据信息处理技术中。除此之外，大数据与经济、大数据与社会、大数据与道德法律等交叉学科的研究也会得到长足发展，进而推动大数据的技术创新、思想创新、制度创新。

5 结语

总之，当今大数据时代的迅猛发展，使得人们的生产生活方式越来越智能、越来越丰富、越来越便捷。同时，人们日新月异的生产生活方式所创建的丰富的、多样的、海量的数据，反过来进一步促进了大数据的信息处理技术的发展。两者相辅相成，相互促进，共同发展。在这相互促进的发展过程中，学术界和产业界应当抓住机遇，克服困难，加大大数据的信息处理技术和安全技术的研发力度，加大大数据产业的建立力度，努力建设一批思想先进、技术专业、符合国家战略发展的高素质人才队伍，不断推动大数据的健康、安全、稳定发展。

参考文献：

[1]Big data：The next Google. Nature 455，8–9 （2008）.

[2]Manyika，J.. “Big data：The next frontier for innovation，competition，and productivity.” （2011）.

[3]Y. Demchenko，C. de Laat and P. Membrey，"Defining architecture components of the Big Data Ecosystem，" 2014 International Conference on Collaboration Technologies and Systems （CTS），2014，pp. 104-112，doi：10.1109/CTS.2014.6867550.

[4]大数据观察. 大数据采集技术综述[EB/OL]. 2018[2021-10-10]. https：//cloud.tencent.com/developer/news/305675.

[5]觀向数据. 大数据关键技术——数据预处理[EB/OL]. 2018[2021-10-10]. https：//cloud.tencent.com/developer/news/312404.

[6]陈兴蜀，杨露，罗永刚. 大数据安全保护技术[J]. 工程科学与技术，2017，49（5）：1-12.

[7]Luminous. 大数据安全核心技术[EB/OL]. 2020[2022-10-10]. https：//www.cnblogs.com/nongchaoer/p/12201559.html.

[8]Chen Yanli，Song Lingling，Yang Geng.Attribute-based access control for multi-authority systems with constant size ciphertext in cloud computing[J].China Communications，2016，13（2）：146–162.

[9]Zhou Lan，Varadharajan V，Hitchens M.Enforcing role-based access control for secure data storage in the cloud[J].The Computer Journal，2011，54（10）：1675–1687.

[10]孙红梅，贾瑞生. 大数据背景下企业网络信息安全技术体系研究[J]. 通信技术，2017，50（2）：334-339. DOI：10.3969/j.issn.1002-0802.2017.02.023.