“大数据”在宏观经济预测分析中的应用

2018-11-18 06:29

社会观察 2018年8期

传统宏观经济预测方法应用缺陷

伴随着宏观经济理论的发展，宏观经济预测成为实证分析的另一个重要方面，经济模型分析应用的一个重要方面，传统宏观经济预测方法的核心思想是通过特定的模型与方法技术发现统计数据的内在规律，并且利用这种规律预测未来。

（一）传统宏观经济预测方法

综合现有的宏观经济预测分析方法和应用现状，宏观预测模型主要可以分为两种类型：基于理论驱动的结构模型和基于数据驱动的时序模型。

基于理论驱动的结构模型主要是以宏观经济理论为基础，构建数理分析模型，然后“统计化”，形成经济计量模型，利用统计数据进行参数估计，并以此分析宏观经济变量之间的数量关系以及对关注变量进行预测，这类模型计算过程复杂，能分析和预测领域众多，具有很好的经济解释性。

基于数据驱动的时序模型主要是指不依赖任何经济理论，纯粹依靠数据的内在规律进行建模。这类模型不强调内在的经济理论逻辑，更多关注变量本身的变化特征和在时间维度上的延续性，并利用这种数据内在的变化模式预测未来。

传统的宏观经济预测模型，经过长期的发展、更新和改进，建模方法相对完备，无论是理论驱动建模还是数据驱动建模，在宏观经济预测领域都发挥着重要作用。但无论是基于经济理论的模型还是基于数据驱动的模型都严重依赖经济系统规律的延续性。现有的宏观经济预测模型应用有效性基本的逻辑是通过历史数据发现经济运行的基本规律，通过历史数据中发现的规律来预测未来经济情况。

（二）传统宏观经济预测方法应用缺陷

经济运行规律在短时间内发生变化的可能性较小，但会随着时间间隔的增加，偏离原有的经济运行规律的可能性和程度会越来越大，因此，传统宏观经济预测模型方法的有效性很大程度上依赖于使用的数据是否足够“好”。但传统宏观预测分析过程中使用的统计数据存在较为严重的问题，这也是导致宏观经济模型预测分析存在较大“偏误”的重要原因，也是传统宏观经济预测分析过程中存在的根本性问题。

传统的统计数据主要存在五个方面的缺陷。（1）滞后性。宏观统计数据需要在经济运行发生后，通过相关部门统计汇总，这个过程需要较长时间，一般统计的数据指标都是滞后一年或者滞后一个季度的数据。（2）统计误差。统计数据需要人为搜集并汇总，这个过程人为参与程度较深，并且时间较长，过程较为复杂，很难确保整个过程准确无误，这样汇总性的数据一般存在较大的统计误差，使用这种存在统计误差的数据做预测，会进一步增大预测误差。（3）数据获取成本高。传统数据收集过程较为复杂，需要耗费大量的人力和物力投入，数据获取的成本相对较高。（4）样本量较少。由于统计样本和获取数据成本是成反比的，随着统计样本量的增加，统计成本也会急速增加，因此，一般会在统计样本和统计成本之间做一个平衡。例如，居民消费者价格指数（CPI）的统计，采用的是抽样调查方法抽选确定调查网点，按照“定人、定点、定时”的原则，直接派人到调查网点采集原始价格，一共涵盖了8.3万多家价格数据，但相对于全国整体的市场数量，这个样本量不到整体的1%。（5）颗粒度不够。现有的宏观统计指标相对来讲，都是整体性的宏观指标，例如，CPI指标，涵盖了食品烟酒、衣着、居住、生活用品及服务、交通和通信、教育文化和娱乐、医疗保健、其他用品和服务等 8大类、262个基本分类的商品与服务价格，但是，这样整体性的指标很难为分类行业的经济决策做具体性的指导。例如，童装价格的指数就无从知晓。

正是由于传统的统计数据存在上述根本性问题，导致了宏观经济预测分析过程中，难以做出实时和有效的预测。这也是当前传统宏观经济分析和预测存在的瓶颈性问题。

“大数据”特点及对传统宏观经济预测的互补性

随着科技技术进步，特别是计算机和网络技术的飞速发展，人类社会积累的各种各样的数据信息越来越多，形成了海量的数据信息，一般称为“大数据”。数据已经渗透到当今每一个行业和业务领域，成为重要的生产要素。人们对大数据的挖掘和运用，预示着新一波生产力增长和消费盈余浪潮的到来。大数据的产生也对宏观经济预测和分析产生了重大的影响。要分析大数据在宏观经济预测领域的应用和发展，首先需要明确大数据概念和特点，以及与传统数据的区别，才能准确有效的把握分析的方向。关于大数据的具体概念还没有形成统一的观点，可以从不同的专家和学者的定义中发现其特点。

（一）大数据的典型特征

综合国内外专家和学者对“大数据”的描述和定义，发现能视为“大数据”的数据具有四大特点。（1）数据量巨大。传统的模型方法收集和应用的数据在KB级、MB级数据量，而大数据的信息量在GB级以上，甚至是TB级、PB级、EB级别的数据信息。（2）传统计算机在可接受的时间内无法处理。传统计算机计算能力有限，面对巨量的数据，无法有效胜任分析处理工作。（3）数据信息多样性。传统的统计数据一般为截面数据，时间序列数据或面板数据，归结起来都是结构化的数据信息，然而大数据的数据信息扩展了范围，包含文本、图片、语音、视频、网络搜索、日志信息、URL等。（4）高价值，但价值密度低。一堆无用的，对增强认识事物的能力无帮助的数据是不能称之为“大数据”的，高价值体现在“大数据”蕴含的信息能够提供传统数据不能提供的精准信息，但是，由于数据量巨大，单个样本或数据单元提供的价值信息降低，只能通过海量的数据分析才能提取出来完整的价值信息。

（二）大数据在宏观预测方面的优势

以互联网平台积累为代表的大数据做宏观经济预测有其独特的优势。（1）及时性。通过互联网平台积累起来的数据，就存储在网络空间中，交易的数据、价格等一切信息在交易发生时，即刻在网络中留下痕迹，可以被一定的方法和技术提取出来，用于处理和分析问题，不存在时间滞后性。（2）精准性。网络平台提供的数据，在事件发生时按照实际的发生情况记录信息，减少了人为的操作，提供了相对原始的数据，而非人为搜集后经过处理后数据信息，因而更加准确。（3）相对低成本。由于网络大数据均在事件或交易发生时，自动被记录下来，无需人为调查和搜集，通过技术方法提取出来加以整理得到，能够极大程度上降低获取数据的成本。（4）颗粒度高。传统的数据搜集过程为了降低成本，会尽量搜集总体数据，而非细化的搜集数据信息。网络大数据时代，提取总体数据信息和单独搜集某一类别的数据的区别并不大，可以在不显著增加成本的前提下，提供更加详细和更加有意义的数据信息。（5）样本量大。通过利用互联网大数据信息，可以获取总体或者接近全体的样本信息，并非通过统计抽样的方式来获取样本信息从而来推断总体信息。在这样的大数据支持下，用于计算的样本量是海量的，并且能极大地接近全样本，直接获取最为真实而全面的统计指标信息。

（三）大数据与传统宏观经济预测的互补性

通过上述关于大数据概念和特点的分析，可以发现，大数据并不是对传统宏观预测模型方法的革新，而是对传统模型宏观经济分析预测方法的补充和改进。通过对传统统计分析方法使用数据方面的改进，从而突破传统方法的根本局限，从而提高模型的预测效果和应用范围。

传统宏观经济预测方法经过几十年的发展，模型多种多样，较为全面，能对各种各样情况下的数据结构进行分析和预测，但由于使用的数据存在种种缺点，导致无法进一步提高模型预测的效果，存在根本性的瓶颈问题。而最近发展起来的大数据以及大数据相关技术，无论是爬虫技术，还是分布式储存技术，亦或者是云计算等，都是围绕大数据获取、保存和应对超大型数据的计算问题而发展起来的技术方法，而真正能成为大数据独有的宏观预测模型的技术方法却较为缺乏。并且，大数据在分析经济问题时，更多的是采用描述性的方式，较少采用结构性的方法，缺乏经济理论支撑。

通过大数据技术和方法，获取及时性的数据，结合传统的宏观预测和分析模型，既能有效利用经济理论解释经济问题，又能通过大数据获取的数据信息突破传统统计数据存在的问题，有效提高宏观经济预测和分析的效果，为宏观经济预测和分析带来新的突破。

另外，由于大数据的及时性，突破了传统统计数据的滞后性问题，例如可以通过传感器收集每天的全部商品交易数据，直接计算当月的通货膨胀率，这样得到的数据会是实时的，并且是近乎全样本数据，当月数据计算当月的CPI，也就突破了利用历史规律来预测过程中的“卢卡斯批判”引发的问题。

大数据宏观预测中存在的问题和解决方案

由于大数据的独特性，也造成传统的处理方法难以直接应对大数据的分析，需要新的技术方法来处理和分析经济大数据。当前，利用大数据分析宏观经济问题已经取得一定的成果，但远远不够，受到的局限较大。

（一）数据获取

传统的统计和计量模型使用的数据是通过统计和调研得到的数据，都是直接用于处理和分析的结构化数据信息。但是，经济大数据信息更多的是隐藏在网络之中，需要提取出来。现有可以用作宏观经济预测分析的大数据获取来源主要有三种。（1）利用百度指数和Google Trends等互联网公司提供的数据信息。这种方式在当前的宏观经济问题研究中使用较多，数据获取难度相对较小。（2）利用“网络爬虫”技术定制数据信息。这种方式优势是可以根据宏观预测的目的有针对性地设计程序，从互联网绝大部分网站提取需要的数据信息，不受平台局限；缺点是技术难度较大，学习成本较高。（3）企业大数据。企业数据较为完备，并且数据质量较好，但存在一个“数据壁垒”问题。基本所有企业都将数据视为企业的私有资产，不公开，数据难以获取，购买成本较高。

（二）维度灾难

在宏观经济模型中，由于大数据价值密度低的问题，往往需要通过大数据挖掘技术，获得足够多的数据信息，这包括多维度上的数据信息，因而解释变量会大大增加，因此研究中会出现高维数据问题，即因可得信息过多，往往会出现和被解释变量相关的解释变量数量过多，产生所谓的“维数灾难”。

（三）非结构化数据

构成大数据信息类型来源多样，网络日志、音频、图片、URL、文本、地理位置信息等。其中大约只有10%属于结构化数据，其余90%的数据信息均是非结构化数据。宏观经济预测分析，离不开对非结构化数据的处理。网络舆情信息等更多的都是文本信息，这些信息的处理均要求使用新的数据处理技术，当前这方面应用发展还较为初级。

（四）研究问题范式的转变

绝大多数情况下，传统的计量模型宏观经济预测，均假设解释变量与被解释变量之间呈现某种确定的函数关系，但通过不同渠道获取的大数据资源，很难直接假定与宏观经济指标之间是确定的某种函数关系，实际过程中，大数据解释变量和宏观经济变量之间只存在相关关系，不存在因果关系。这更难以利用传统的计量模型来处理。

（五）数据噪声问题

噪声数据是指获取的对研究目的没有价值的信息。噪声数据问题的存在，导致两个方面的严重后果。（1）增加了成本。由于数据中大量噪声数据的存在，增加了数据处理的过程和难度，相应的研究分析成本大幅度增加。（2）增加了研究结论的误差。由于没有识别出噪声数据，导致研究问题过程中将加入大量无价值数据信息，给研究结论带来不确定性，增加了结果的误差，导致研究结论无价值，甚至会得到错误的结论。

当前大数据宏观经济研究过程中，数据来源范围越来越广泛，数据的搜集手段在扩展，数据搜集能力在增强，但搜集来的大量数据并非均与研究目的直接相关联。因此，在实际研究过程中，识别出与研究目的最相关的数据信息十分重要。当前利用大数据做宏观经济预测和分析的研究中，大部分直接使用Google 或百度指数，对此问题的讨论较少。但随着未来相关问题研究的深入和细致，噪声数据的处理，将会是一个探讨的重点。通过一系列的技术手段，获得网络或者其他来源的大数据后，均会处理成结构化数据用于分析和预测。

总结及展望

本文通过专家学者对“大数据”概念的定义，总结出能够定义为“大数据”信息的四个特点：数据量巨大；传统计算机难以计算处理；包含非结构化数据；信息密度低。在此“大数据”的特点上，宏观经济领域的“大数据”相对于传统的调查统计数据做预测分析具有以下五个方面的优势：及时性；精准性；容易细分；数据成本相对低和样本量巨大。

综合截至当前学者们利用经济“大数据”做宏观经济分析和预测研究成果，主要集中在失业率、通货膨胀、社会宏观消费、房地产市场、选举问题、社会舆论分析以及GDP 预测等方面。当前国内在失业率、社会宏观消费、选举问题，以及GDP 预测方面研究较为缺乏。

虽然专家和学者已经将“大数据”广泛应用到宏观经济预测分析当中，但还需在以下几个方面进行扩展，这也是未来“大数据”在宏观经济预测方向发展的重要方向。现阶段，应用“大数据”来做宏观经济预测和分析的研究主要是将Google Trends和百度指数等互联网公司提供的数据来分析经济问题。这些数据均受制于自己的平台，例如，百度指数获取的数据只记录百度用户在百度搜索引擎上进行搜索的搜索量数据，这些数据信息受局限性大，而且数据相对单一。另外，占网络数据信息量90%的非结构化数据，现阶段较少用于做宏观经济预测，这个是未来宏观经济预测数据的重要来源。应用经济“大数据”做宏观经济预测时面临的几个方面的问题：维度灾难；非结构化数据；非线性关系和噪声问题。这些问题虽然在当前存在一些解决方案和模型，但是，均无法较好地满足宏观经济预测分析的要求，需要积极探索新的解决方案。