数字治理评论(第2辑)
上QQ阅读APP看书,第一时间看更新

三 样本选择与研究方法

(一)样本选择

本文所选取的政策样本均来源于“北大法宝”“北大法意网”等政策法规数据库,并在国务院各部门的相关门户网站进行查询补充,保证了原始数据库的权威性和完整性。而后在原始数据库进行关键词的组配检索,如“数据”“开放”“发布”等,共得到1373份原始政策文献(截至2018年3月1日)。

为使政策样本更具针对性,笔者依据三条标准对原始政策文献进行了二次筛选:(1)鉴于研究服务于国家层面的数据开放战略,因此采集的样本群也聚焦于国家层面的政策文本,具体包括全国人民代表大会、中共中央、国务院及各部委发布的通知、规划、纲要、命令、办法和意见等(除了标准的15类党政机关公文外,也考虑纳入方案、纲要、规定等非法定公文类型)。(2)发文时间以2015年8月31日为起点。国务院于当日印发了《促进大数据发展行动纲要》,这是政府数据开放被纳入国家大数据战略的起点,也是我国政府数据开放政策体系建设的重要里程碑。自《纲要》发布后,与政府数据开放相关的政策文献数量呈现明显的上升趋势,以这个时间节点为界限,选取的文本更能反映我国政府的权威关注与时代特征。(3)文本内容与政府数据开放密切相关。对一些政策制定过于宽泛,相关政策内容过于简短,或者规制主体并非政府的文本进行过滤,只保留能反映政府数据开放一般性特征的文本。经过二次筛选后,共得到75篇政策文献,本研究将以此作为分析样本。

(二)研究方法

本文采用内容分析法对75份政策文本的内容进行量化分析,并采用NLPIR自然语言处理框架和ROSTCM内容分析软件,辅助政策文本的分析。NLPIR全称为大数据搜索与挖掘共享开发平台。是中科院计算所研发的一套自然语言处理软件,能专门针对原始文本集进行处理和加工,是目前最为完善的自然语言处理工具之一。作为一个知识数据的处理工具,NLPIR主要提供了全文精准检索、分词标注、文本聚类、统计分析等11种功能。鉴于本文的研究侧重于文本内容的考察,笔者仅着重使用了分词标注及统计分析两大功能。为使文本结构的呈现可视化,笔者还利用ROST ContentMing 6.0内容挖掘系统(简称ROSTCM 6.0)对词汇共现结果进行可视化处理,构建我国顶层数据开放政策的语义网络。语义网络的构建,是基于词频共现结果的处理。