四 研究结果与分析
(一)我国政府数据开放政策的结构特征
1.政策类型:单一性与局限性
在纳入统计的75份政策样本中,所涉文件类型只有7种,其中通知类文件的数量(51份)远超其他类型的文件;标准公文(通知、意见、通报、报告)的数量占92%,非法定公文类型文件(规定、纲要、方案)占总量的8%。由此可见,我国绝大多数的政府数据开放政策文件是以标准公文的形式发布的。有关部门不是只停留在对开放政府数据提出见解或处理意见,就是对政府的工作事项要求进行上传下达,缺乏在实际落实中更具针对性的“办法”“规定”等文件类型。这反映了我国数据开放政策类型较为单一,指导意义较强,但针对性不足,此状况将影响具体政策落地执行的效力。此外,政策文件能上升到法律法规的只有一部,且不具普适性。我国数据开放顶层政策的文本效力及立法影响有待提升。
2.发文机构:层次性与广泛性
笔者试图通过机构涉文次数(发文机构所涉文件数量)来衡量政策的组织构成;通过组织机构范围(发文单位在机构编制结构中所处的位置及与其他机构的关系)来衡量政策的组织覆盖面。为精准统计机构涉文次数,避免发文机构分类过细,本文对发文机构进行如下处理:(1)对于单独行文的单位,依据最新《党政机关公文处理工作条例》,办公厅、办公室这类官方机构内部常设以处理日常性、综合性事务的机构,取其直属上级机构为来源;(2)对经由相关组织会议通过的文件,以该组织为来源;(3)对转发机构不纳入计数;(4)对组织机构名称不同且不符合上述情况的,不予合并。
研究发现,发文机构涉及全国人大、中央政府、中央政府各部门等三个层次的34个机构,覆盖面非常广泛。在行文次数上,国务院发文次数(20次)远远领先于其他机构;在国务院各部委中,国家发改委、国土资源部、交通运输部、工业和信息化部均发文4次,农业部、人社部、国家中医药管理局、国家税务总局均发文3次,国家林业局、中国气象局、文化部和国家测绘地理信息局均发文2次。另外,2016年和2017年是各部委发文高峰期(见图2)。
图2 政策文件的时间-组织构成
图3 所涉发文机构组织结构
在国务院涉文机构当中,同样分为三套管理系统,分别是国务院组成部门、国务院直属机构与国务院直属事业单位(见图3)。其中,国务院组成部门的涉文机构数目(15个)及涉文次数均为最多(35次),所领导或管理的行政事务最为丰富,与社会公众的广泛利益密切相关,涵盖了经济发展、社会服务、文化教育等职能领域。可见,国务院各部委作为政府数据开放过程中主要职责的承担者,以国务院组成部门为职能履行的核心机构群,与国务院直属机构、直属事业单位相互补充,共同履职。在国务院组成部门中,经济发展履职部门的涉文次数占一半以上(51%),社会服务履职部门也占据了40%,而教育文化履职部门仅占9%。这表明,在数据开放政策的发布中,经济管理部门及社会民生部门最受重视,数据开放政策与国民经济和社会的发展息息相关。
总之,政策制定主体覆盖面广泛,涉及党、政府、司法系统中多个机构,同时在权力层次上,呈现人大、国务院、国务院组成部门、国务院部委代管的国家局等权力从属关系。制定主体的层次性与广泛性表明,我国政府数据开放处于顶层设计拓展深化的阶段。
3.文件领域:纲领性与发散性
结果显示,以《促进大数据发展纲要》《“十三五”规划纲要》《“十三五”国家信息化规划》为代表的纲领性文件构成了核心文件群,统筹指导着其他政策文件的出台及制定。随着制定主体层级的从上而下,政策文件数量越来越多,所涉及的事务越发具体细致。在文件随着权力层级向外发散的过程中,针对的事务领域囊括政府各项基本职能,影响面扩散到社会经济的各个角落。例如,《中国气象局办公室关于印发〈气象政府网站建设与管理指南〉的通知》即是针对“基础设施建设”所出台的文件。
当前,针对政府数据开放政策文件的分类涵盖了数据发布、数据共享、数据监管等多个领域。这样的数据开放政策文件分类标准存在以下问题:(1)单个文件适用的分类标准模糊。数据开放是政府部门的系统性工程,单个文件可以同时包含多个领域类别。例如,《人力资源社会保障部关于印发“互联网+人社”2020行动计划的通知》就同时包含了数据创建与交汇、数据发布、数据共享等多个类别。(2)各个部门适用的分类标准不一。目前我国仍处于数据开放的初步建设阶段,虽然新文件出台频繁,但各个部门的文件效力相对独立,侧重点也并不一致。如银监会、证监会等金融监管机构,侧重于数据发布与数据监管,其他领域极少涉及;而工业和信息化部、国家知识产权局等涉及新兴产业支持与保障类部门,则会涵盖数据安全与隐私、知识产权等领域。
4.政策框架:渐进性与周期性
为了探寻数据开放政策和政策周期的逻辑关系,笔者将政策分为三类:(1)注重全面发展类,主要包含规划、指导性的文件,对政府数据开放具有全局性的指导意义。(2)注重具体工作类,重点对政府数据开放的某些特定行为作出规定,并兼顾前期或后续的支持,如财政支持和咨询改进等。(3)注重监督评估类,即对政府数据开放的政策行为进行监督,并对其政策效果进行评估等,目的是通过纠正错误的政策行为,实现原本的政策目标。由于三类文本部分内容可能存在重叠,笔者将依据具体文本的侧重点进行分类。
分析发现,我国数据开放政策以注重全面发展类为主(41份),其次为注重具体工作类(30份),注重监督评估类文件极少(4份)(见图4)。可见,我国政府数据开放政策最为注重宏观规划,同时也存在具体的政策安排,但对政策的监督反馈不足,将影响政策执行的效度。另外,数据开放政策的出台与政策周期的逻辑相符。在起步初期,注重社会经济全面性发展的政策文件居多;随着指导理念的逐步明确,针对具体工作领域的细分性政策文件开始涌现;在各项政策内容得到完善后,开始关注政策执行的效度,于是评估性、监督类政策得以制定。
图4 政策文件的时间-框架类型
(二)我国政府数据开放的工作重心
1. NLPIR框架下的分词处理
“NLPIR大数据搜索与挖掘平台”中的“分词标注”功能,正是当今汉语分词技术的成熟体现。在对文本进行分词处理后,文本中的词汇将会呈现“词语/词性”的形式。以《促进大数据发展行动纲要》中的任一句子为例,分词结果呈现如下:
大/a 数据/n 应用/vn 能够/v 揭示/v 传统/n 技术/n 方式/n 难以/d 展现/v 的/ude1 关联/vn 关系/n,/wd 推动/v 政府/n 数据/n 开放/v 共享/v,/wd 促进/v 社会/n 事业/n 数据/n 融合/vn 和/cc 资源/n 整合/vn,/wd 将/d 极大/a 提升/vn 政府/n 整体/n 数据/n 分析/vn 能力/n,/wd 为/v 有效/ad 处理/v 复杂/a 社会/n 问题/n 提供/v 新/a 的/ude1 手段/n。/wj
在这种形式的分词结果基础上,词汇便成为文本最基本的考察单位。以词汇为元单位的文本,此时便产生了统计学上的意义——词频。笔者将语料库的所有政策文献进行分词处理,进而得出总词频计数(见表2)。
表2 总词频计数排名(前5名)
2.基于词频统计的文本分析
词频统计的结果是政策文本具体内容的表现形式之一。单元词汇在文本集合中出现的频次、概率能在某种程度上反映政策的内容分布及制定者的施政意图,也为我们衡量政策文本内容的各个维度提供了标准。
在分词处理的基础上,运用NLPIR对数据进行词频统计。由于工具的限制,词频统计结果中也含有一些没有研究意义的单元词汇,如各类标点符号、量词、介词及一些单字符数词。在剔除以上没有具体的考量意义的词汇后,笔者统计得出一元词汇(见表3)。研究发现,(1)词频方面,即便是高频词汇之间,也存在一定的差距。频次3000以上的词汇有三个,分别为“服务”“信息”和“数据”。第二梯度为2000以上的词汇,其中以“建设”“技术”“资源”最为显著。(2)词性方面,以名词和动词为主;从单一词性来看,名词的频次又高于动词,频次最高的单一名词为“信息”和“数据”,频次最高的单一动词为“加强”和“推进”。不同词性在文本中呈现不同的表达功能和重要程度,政策文本选择具有重要角色的名词和动词作为表达语言,不仅增强了内容的严谨性和权威性,而且提升了信息传递效率。
表3 频次排名前20位的一元词
再利用NLPIR提供的接口获得所有政策文件集合的二元词频,剔除时间、数字、单字符数词和序数词,获得二元词对总数为13346对(见表4)。分析发现,(1)共现频次方面,“大”“数据”遥遥领先,“政务”与“服务”的共现频次也较高,这两个二元词对的共现频次远高于其他词汇。这反映了大数据技术贯彻于政府数据开放行动当中。在大数据技术支持的基础上,面向民生的政务服务将是政府数据开放的工作重心。(2)二元概率方面,概率最高的是“物-联网”,其次是“国土-资源”“主管-部门”“大-数据”“知识-产权”等,表明这些词对高度相关。综合共现频次与二元概率考虑,“大数据”“物联网”“政务服务”“知识产权”“政府网站”“国土资源”等内容与政府数据开放工作联系紧密。
表4 共现频次排名前20位二元词对
3.社会网络语义分析
基于二元词汇表,笔者利用ROST ContentMing 6.0内容挖掘系统对词汇共现结果进行可视化处理,得到语义网络图(见图5)。在Netdraw上生成的语义网络图,可以反映关键词汇之间的结构关系。结果显示,语义网络的中心区域即为文本内部结构的核心词汇,前五位依次是“服务”“建设”“发展”“推进”“技术”。可见,服务导向与技术运用是政府数据开放工作中的核心内容。在网络中心的外层,“体系”“管理”“应用”“平台”的指向度亦较高,这表明,开放政府数据的任务不仅落实到应用平台的建设上,而且高度重视管理体系的架构。在语义网络的外围,还出现了“国家”“企业”“社会”等描述主体对象的词汇,表明政府数据开放工作涉及的主体呈现多元化的迹象。
图5 政策文件集语义网络
(三)我国政府数据开放政策的工具运用
按照本文制定的政策工具分析框架,笔者将政策条款作为分析单元进行标识编码。根据政策工具编码情况(见表5),分析发现,从政策工具的使用数量来看,战略规划类政策工具使用最多(占45.90%),其次是具体措施类政策工具(占30.82%),再次是组织保障类政策工具(占17.71%),最少使用的是政策支持类政策工具(占5.57%)。职能范围上,涉及经济发展(占50.82%)和社会服务(占40.00%)的职能类型要多于教育文化(占9.18%)。工具—职能的二维维度下,同样呈现战略规划类工具、具体措施类工具、组织保障类工具、政策支持类工具的使用数量递减的情况。说明职能范围对政策工具的结构不具明显影响。
表5 政策工具编码情况
组织保障类政策工具中,出现最多的是领导体制(占40.74%),领导体制的构成主要为党委、政府、负责数据开放工作的领导小组及其办公室;其次是由专职评估机构、专家学者、第三方评估机构等评估主体组成的评估机制(占25.93%);协调机制表现为决策部门、项目承担部门、改革牵头部门的配合协作,在分析结果中出现较少(占20.37%);问责机制最少使用(占12.96%),文本内对专职监督问责机构、司法机关的表述有限。
首先,具体措施类政策工具中,加强基础建设被使用最多(占54.26%),其中包括“政府网站”“政府数据开放共享平台”“数据资源内网”等基础建设;其次为技术攻关(占18.09%),其内容主要包括数据开发、数据质量、数据交换技术和数据隐私保护等;再次为重点项目的推进(占14.89%);最后,值得注意的是,明确核心技术产权保护的条目仅占12.77%。
政策支持类政策工具中,财政支持(占41.18%)被使用最多,其次为开放参与(占35.29%)。数据开放所需资金主要来自两个方面的供给,一是官方财政经费的支持,二是引入企业、社会组织或公民的资金,积极开展资金或技术上的合作。政策文本中,涉及大数据人才教育培训的“人才培养”条目仅占23.53%。
从研究结果可见,由于本文针对的是国家层面的政策文本,因此战略规划类政策工具较多符合顶层设计的逻辑要求。此外,由于我国数据开放体系的建设目前仍处于起步阶段,发展理念与目标尚处不断更新和完善的过程中,亟须战略规划类政策工具的发展指引。与战略规划类相比,其他类型的政策工具使用明显不均衡。组织保障类及政策支持类政策工具的使用占比较低,考虑到政府数据开放涉及的技术繁多,领域广泛,组织保障的不完善与政策支持力度的不足将直接影响政府数据开放的深化。具体到各类政策工具的使用情况,分析发现:(1)组织保障类工具中,对数据开放牵头部门的规定较为明确,但监督机制与问责机制的强调力度不足。(2)具体措施类工具中,大数据共享平台、政务服务网站建设等基础建设是重点内容,而知识产权保护的关注度不足,也导致了当前政府数据开放管理中数据权属关系的问题(鲍静、张勇进、董占广,2017)。(3)政策支持类工具使用非常少,国家财政对政府数据开放的支撑力度有限,预示着在政府数据开放过程中,工作任务的下发有可能因为经费不足而产生政策效果与政策目的的偏离。此外,开放参与度不高,说明在数据开放项目建设当中,政府和社会资本的合作模式并未得到应有的重视。人才培养的不足,则说明在我国公务员队伍的建设中,大数据技术培训力度有待提高。