中国政府统计数据质量管理问题研究
上QQ阅读APP看书,第一时间看更新

第二节 研究的基本内容

一 统计数据质量管理基本理论研究

为了解决我国政府统计数据存在的质量问题,有必要首先对数据质量管理的基本理论进行研究,系统地总结一套比较科学同时又能很好地与我国国情相结合的统计数据质量管理的基本理论,为本书的研究提供坚实的理论框架。基本理论研究主要包括以下几项内容。

(一)统计数据质量基本概念研究

关于统计数据质量的含义,不同的统计机构和学者对此有不同的定义。例如,加拿大统计局确定了衡量数据质量的6个方面标准,即适用性、准确性、及时性、可获得性、衔接性、可解释性;英国统计局提出的数据质量的标准是准确性、及时性、有效性和客观性;Dalenius(1983)提出统计数据质量的“测量向量”,包括统计数据的准确性、经济性、保密性、相关性、及时性、数据详细程度等;Gordon Brackstone(1999, 2000)提出统计数据质量的6个维度,包括相关性、准确性、及时性、可获得性、可解释性和一致性。

我们认为,统计数据的质量并不限于通常人们所理解的准确性。统计数据是统计工作的成果,统计数据的质量与统计工作的生态环境及其各个环节的工作质量密切相关。作为统计工作的一种“产品”,统计数据本身是在不断发展与变化的,其质量概念也需要与时俱进。因此,为了更深入地研究统计数据的质量问题,有必要在对国内外相关研究成果进行系统总结的基础上,进一步整理概括出一套明确的、多维的、全方位的统计数据质量概念。

(二)统计数据质量评价标准研究

统计数据质量评价标准是衡量数据质量的基本尺度,具体包括数据质量公布的标准和数据质量评估的框架。

数据公布的国际标准,目前主要有国际货币基金组织指定的数据公布通用系统(General Data Dissemination System, GDDS)和数据公布特殊标准(Special Data Dissemination Standard, SDDS)。GDDS主要涉及实体经济、财政、金融、对外和社会人口五大统计部门,具体内容包括数据的范围、频率和及时性,公布数据的质量,公布数据的完整性和公众获取四个部分。SDDS包括的内容与GDDS大致相同,但提出了更高的要求。

数据质量评估的国际标准目前主要有以下几个。

(1)国际货币基金组织的数据质量评估框架(Data Quality Assessment Framework, DQAF)。这个框架提供了对统计数据质量进行定性评估的一套指标体系,它从保障数据质量的前提条件(法律和机构环境等)出发,依次从保证诚信、方法健全性、准确性和可靠性、适用性、可获得性5个方面对数据质量进行了分析。

(2)欧洲统计系统(European Statistical System, ESS)的统计质量保证框架。这个框架包含5个基本要素:文件、程序和统计方法的标准化、质量估量、战略规划与控制、改进质量的行动;定义了4种评估形式:自我评估、有支撑的自我评估、同行评议和滚动审议。欧洲统计系统还制定了一套完整的质量工具,包括《欧洲统计系统质量报告标准》《欧洲统计系统质量报告手册》《欧洲统计系统质量词汇》《元数据最新词汇》《欧洲调查管理人员自我评估检查单》《通过程序变数分析改进质量手册》《数据质量评估手册:方法和工具》等。2009年3月,欧洲议会和欧洲理事会还通过了新的欧洲统计条例,定义了8个质量标准,讨论了质量指标和最低标准的定义。

(3)经合组织的统计活动质量框架。经合组织于2003年发布《经合组织统计活动质量框架和导则》,主要内容包括4个方面:质量的定义及维度、保证新出现统计活动质量的程序、定期评估已有统计活动质量的程序,以及一组包含整个生产过程的统计活动的基本准则与质量指南。

开展我国统计数据质量评价标准的研究,首先,要对发达国家和国际组织的标准和实践进行研究。在借鉴国际经验的基础上,结合我国的实际情况,提出适合我国国情的统计数据质量评估标准。其次,要进一步分析影响我国统计数据质量的一般原因、统计数据质量管理的基本环节,从而构建我国统计数据质量评估的基本标准。

(三)构建政府统计数据全面质量管理体系的理论研究

政府统计数据是政府统计机构的生产成果。政府统计数据的生产流程具体可表现为由统计设计—统计调查—数据处理—统计估算与分析—统计数据发布—统计数据质量评估与修订等各个环节组成的全过程。统计数据生产中任何一个环节的疏漏都可能使统计数据产生质量问题。因此,有必要借鉴全面质量管理的理论,分析影响统计数据质量的各种因素,提出进一步从各个环节加强质量管理和质量控制,从而构建国家统计数据质量管理体系的基本思路。

二 统计数据质量诊断与评价方法研究

为了开展统计数据质量管理问题的研究,还需要有一些诊断和评价统计数据质量的科学方法作为技术支撑。

从以往的研究成果看,数据质量诊断和评价方法主要可以分为以下五大类。

1.传统分析方法

传统分析方法包括利用各指标之间理论上存在的逻辑关系、平衡关系和相关关系对统计数据的准确性进行检验的方法等。例如,张为民、崔红艳(2003)对我国2000年人口普查分年龄人口数据的准确性进行了一致性检验,他们发现:1990年0—9岁人口活到2000年没有减少反而增加了,显然有一方的数据是错误的。又如,顾海兵(1999)根据多年来我国生产法GDP和支出法GDP一直存在的较大偏差对我国GDP统计数据提出疑问。传统分析方法的优点是比较简便易行,并且可应用于统计数据生产的各个环节,因此在实践中得到了广泛的应用。但这类方法的应用必须满足一定的前提,例如,根据平衡关系去检验数据质量的方法只适用于确实存在有逻辑平衡关系的数据,而利用相关关系去检验数据质量的前提是高度的相关关系确实存在,同时与被评估指标相关联的统计数据也必须是可靠的。

2.调查误差评估法

统计数据准确性评估归根结底是对数据中所包含误差的评估。从数据的生产过程来看,这种误差主要表现为调查误差。调查误差可分为抽样误差与非抽样误差。对于抽样误差,统计学中已经有一套比较成熟的事先进行测算与控制的理论与方法。因此,这里所谓的调查误差评估实际上主要是对非抽样误差进行评估。其基本思路是事后组织在更为理想和规范的调查条件下(如选调更有经验的调查员等)的抽样调查,并以此为标准去估计初始调查的误差,以此作为评估初始调查数据质量的标准。调查误差评估法从产生统计数据准确性问题的源头入手,对统计数据的可信度进行评估。这种方法比较适合对基层统计数据的评估。该类方法隐含的假设为:初始调查的非抽样误差主要来源于调查设计的不合理和调查实施过程的不规范,而事后重复调查的设计则足够合理,调查实施过程也足够规范。

3.计量模型分析法

计量模型分析法是一种利用限定的计量模型,包括横截面数据模型、时间序列数据模型、面板数据模型等,检验统计数据准确性的方法。例如,湖南大学课题组曾应用生产函数模型对我国GDP数据出现的异常点进行分析。应用计量模型分析法的前提条件是:被评估的指标与其他指标之间的关系能够用相应的计量模型很好地加以描述。如果出现有关参数的符号与理论或经济常识不符的情况,则可判断可能是统计数据存在问题。另外,通过计量模型分析,也可以找出严重偏离既定模型的数据点,即所谓的异常点。通常将位于这些异常点的数据视为可能存在质量问题的统计数据。利用计量模型分析法判断统计数据质量的难点在于:当利用某种模型诊断的结果出现异常时,实际上很难判断这一异常是由数据质量引起的,还是由选用模型不恰当引起的,抑或这一异常恰好是真实情况的反映?另外,采用计量模型分析法时如涉及其他指标,则其他指标的数据必须较为准确可靠,这也是不可或缺的前提条件。

4.统计分布检验法

这种方法假定所要评价的统计数据服从某种随机分布,并用不一致性测试(Discordancy Test)来识别异常点。近年来,人们较为关注的Benford法则检验法刘云霞、吴曦明、曾五一:《关于综合运用Benford法则和面板模型监测统计数据质量的研究》,《统计研究》2012年第12期。,本质上也属于此类方法。例如,成邦文等(2000)的研究表明,反映现象规模大小的“社会经济规模指标”,如产量、产值、人员数量等,近似服从对数正态分布。据此,他们提出了统计数据质量检查和异常点识别的对数正态分布检验法,并将这种方法用于我国研究与开发机构年报的调查。统计分布检验法主要存在两个问题,一是在许多情况下,人们并不知道所要考察的统计数据的理论分布,现实统计数据往往并不符合任何一种理想状态的数学分布;二是统计分布检验法需要比较大的样本观测值,经济社会的统计数据常常难以满足这一要求。

5.综合评价法

以上所述的几种方法主要是对统计数据的准确性进行评估和检验的方法。随着统计数据质量的概念由一维向多维发展,对统计数据质量的评估也从数据本身向整个数据生产过程的各个环节扩展,因而也就产生了对统计数据质量进行综合评价的方法。国际货币基金组织提出的ROSC-DM法(根据一定的标准与规范提出数据质量报告的方法)、欧洲统计系统提出的指标集测评方法等都属于这类方法。这类方法的特点是将统计数据质量分成若干环节或若干指标,分别给出评价的标准,先对各个环节或各项指标进行判断,再采用一定的方法将其综合,做出总的判断。综合评价法适用于对一个国家或地区的统计数据质量或统计工作质量做出综合判断。该类方法的难点在于确定各个环节或各项指标的评价标准,以及准确确定各项指标或各个环节在评价中的权重。另外,这种评价相当程度上依赖于参加评估人员的主观判断。

由以上分析可以看出,现有的各类检验与评估统计数据质量的方法都有其长处和局限性,我们在研究中,不仅要对其系统地进行总结和归纳,而且要着重分析其适用的前提、适用的场合,在此基础上还要研究与开发一些新的方法,特别是综合利用各种方法对统计数据质量进行检验与评价的组合方法。

三 主要宏观经济统计数据的质量诊断与分析

以往对我国统计数据质量的具体诊断,主要是一些学者在研究我国的经济增长或其他相关经济问题时有所涉及。从研究对象上看,以往的研究主要集中于对我国国内生产总值和经济增长等少数几个指标的数据质量的评判,对其他重要的指标关注不够。关于我国统计数据质量的判断也是众说纷纭,没有一致的结论。例如,任若恩(2002)用价格指数缩减法判断1986—1994年我国GDP增长率高估了3.8个百分点;Maddison(2001)用生产指数法判断1978—1994年我国GDP增长率高估了2.4个百分点;孟连、王小鲁(2000)在发表的《对中国经济增长统计数据可信度的估计》一文中,利用生产函数的方法估计出我国1992—1997年GDP高估了2.5%左右。美国宾夕法尼亚大学的Klein和Ozmucur(2002)则认为一国经济增长是由多种因素共同决定的,没有一种单独的经济因素或指标对现代经济具有解释力,他们选取了包括能源、交通、通信、劳动力、农业、贸易、公共部门、工资、通货膨胀等在内的15个指标进行主成分分析,结果主成分变动与中国官方估计的实际GDP变动是一致的。

我们认为,影响不同指标统计数据质量的具体原因有较大差异,其中既有管理体制、利益机制等方面的原因,也有统计方法和制度的原因。要真正建立我国的统计数据全面质量管理体系,很有必要综合利用各种方法对各主要的社会经济指标从各个维度逐项进行全面系统的诊断与分析,并在此基础上进一步分析影响各种指标统计数据质量的具体原因,为寻求具体的解决办法提供依据。

宏观经济指标种类繁多,本研究所涉及的主要内容包括以下几个方面。

(1)国家GDP数据的质量诊断与分析。利用各种方法和国内外的相关数据,对我国的GDP等经济指标的数据进行统计诊断和评价。

(2)全国GDP与地方GDP可衔接性研究。目前我国国家一级的GDP数据与地方GDP汇总数据存在较大差距,地方GDP汇总数据远远大于全国GDP。我们将对此进行深入分析,探讨问题症结所在,同时探索解决之道。

(3)普查年度与非普查年度GDP数据可衔接性的研究。根据全国经济普查的结果,我国常规年度的全国GDP统计存在明显的漏算。我们将对该问题展开研究,并提出改进的方法。

(4)固定资产投资、居民消费、政府消费和进出口总值以及GDP生产与支出之间的协调性研究。从理论上讲,GDP的生产与支出之间应保持一定的平衡关系,目前由于各种原因,我国按支出法和按生产法计算的GDP之间存在较大误差。我们要对此问题进行分析,探讨两种方法的可信度,寻求进一步缩小计算误差的方法。

(5)主要物价指数包括居民消费价格指数(CPI)与住房价格指数的质量问题研究。近年来,社会公众对这方面的数据质疑较多,我们将综合利用各种方法对其数据质量进行诊断,同时分析产生质量问题的具体原因,并根据全面质量管理的理念,对提高价格指数的质量做进一步研究。

四 统计生态环境建设研究

所谓统计生态环境是指所有影响统计工作的各种外部因素和条件的总称。统计生态环境包括统计管理体制、统计法规、统计理念、统计人员素质以及政府和公众对统计的态度等。

对于统计生态环境建设,以往的成果主要从统计体制、统计执法、调查方法、统计人员素质等方面进行研究。例如,周建(2005)从公共管理的视角对政府统计数据质量管理进行了研究;曾五一(2005, 2009)分析了我国统计管理体制存在的问题,提出了进一步改革统计管理体制的建议;高敏雪(2009)从外部监管入手对提高统计数据质量进行分析;李金昌(2009)以统计数据质量为切入点,阐述了统计数据质量与国家统计安全、统计本质与统计法治的关系,并对实现统计法治的途径进行了探讨。

要提高统计数据的质量,仅仅依靠统计部门自身的努力或者统计方法制度的改进是不够充分的。从长远看,提高统计数据质量的根本途径在于建设良好的统计生态环境。我国在统计生态环境建设方面仍有一些问题需要进一步研究解决。其主要内容包括统计生态环境的基本概念、影响统计生态环境的主要因素、统计生态环境对统计数据质量的影响分析、如何构建有利于提高统计数据质量的统计生态环境等。因此,对统计生态环境问题的研究也是本书研究的重要内容之一。

本章主要参考文献

[1]成邦文、董丽娅、杨峻:《研究开发机构统计数据质量与异常点的对数正态分布检验与识别》,《统计研究》2000年第1期。

[2]高敏雪:《从外部监督入手解决统计数据质量问题的努力》,《统计研究》2009年第9期。

[3]顾海兵:《中国统计信息失真及原因探析》,《厂长经理日报》1999年8月27日。

[4]李金昌:《统计数据统计安全与统计法治》,《统计研究》2009年第9期。

[5]刘云霞、吴曦明、曾五一:《关于综合运用Benford法则和面板模型监测统计数据质量的研究》,《统计研究》2012年第12期。

[6]卢二坡:《统计数据质量评估方法述评》,《统计与决策》2006年第12期。

[7]孟连、王小鲁:《对中国经济增长统计数据可信度的估计》,《经济研究》2000年第10期。

[8]任若恩:《中国GDP统计水分有多大——评两个估计中国GDP数据研究的若干方法问题》,《经济学》(季刊)2002年第1期。

[9]曾五一:《关于我国统计体制改革的思考》,《厦门大学学报》2005年第4期。

[10]曾五一:《国家统计数据质量研究的基本问题》,《商业经济与管理》2010年第12期。

[11]曾五一:《统计调查体系与调查方法问题研究》,中国统计出版社2009年版。

[12]张为民、崔红艳:《对中国2000年人口普查准确性的估计》,《人口研究》2003年第7期。

[13]周建:《宏观经济统计数据诊断理论、方法与应用》,清华大学出版社2005年版。

[14]〔日〕水野谷武志:《統計制度改革の国際的動向と統計品質論》,《統計研究参考資料》第112期。

[15]Gordon Brackstone, “Managing Data Quality at Statistics Canada”, Korea: Proceedings of the Statistical Quality Seminar,2000.

[16]Gordon Brackstone, “Managing Data Quality in a Statistical Agency”,Survey Methodology(2)1999.

[17]Judge, Laura Schechter, “Detecting Problems in Survey Data Using Benford's Law”,The Journal of Human Resources(44)2009.

[18]Klein, L. R., Ozmucur, S.,《中国经济增长率估计》,《数量经济技术经济研究》2002年第8期。

[19]Maddison, A., “The World Economy—A Millennial Perspective”, Paris: OECD Development Centre,2001.

[20]Rawski, T. G., “What is Happening to China's GDP Statistics”,China Economic Review(12)2001.

[21]T. Dalenius, Errors and Other Limitations of Survey, Statistical Methods and the Improvement of Data Quality(London: Academic Press Inc.,1983).