三样本选择与研究方法_数字治理评论（第2辑）-QQ阅读男生历史网

上QQ阅读APP看书，第一时间看更新

三样本选择与研究方法

（一）样本选择

本文所选取的政策样本均来源于“北大法宝”“北大法意网”等政策法规数据库，并在国务院各部门的相关门户网站进行查询补充，保证了原始数据库的权威性和完整性。而后在原始数据库进行关键词的组配检索，如“数据”“开放”“发布”等，共得到1373份原始政策文献（截至2018年3月1日）。

为使政策样本更具针对性，笔者依据三条标准对原始政策文献进行了二次筛选：（1）鉴于研究服务于国家层面的数据开放战略，因此采集的样本群也聚焦于国家层面的政策文本，具体包括全国人民代表大会、中共中央、国务院及各部委发布的通知、规划、纲要、命令、办法和意见等（除了标准的15类党政机关公文外，也考虑纳入方案、纲要、规定等非法定公文类型）。（2）发文时间以2015年8月31日为起点。国务院于当日印发了《促进大数据发展行动纲要》，这是政府数据开放被纳入国家大数据战略的起点，也是我国政府数据开放政策体系建设的重要里程碑。自《纲要》发布后，与政府数据开放相关的政策文献数量呈现明显的上升趋势，以这个时间节点为界限，选取的文本更能反映我国政府的权威关注与时代特征。（3）文本内容与政府数据开放密切相关。对一些政策制定过于宽泛，相关政策内容过于简短，或者规制主体并非政府的文本进行过滤，只保留能反映政府数据开放一般性特征的文本。经过二次筛选后，共得到75篇政策文献，本研究将以此作为分析样本。

（二）研究方法

本文采用内容分析法对75份政策文本的内容进行量化分析，并采用NLPIR自然语言处理框架和ROSTCM内容分析软件，辅助政策文本的分析。NLPIR全称为大数据搜索与挖掘共享开发平台。是中科院计算所研发的一套自然语言处理软件，能专门针对原始文本集进行处理和加工，是目前最为完善的自然语言处理工具之一。作为一个知识数据的处理工具，NLPIR主要提供了全文精准检索、分词标注、文本聚类、统计分析等11种功能。鉴于本文的研究侧重于文本内容的考察，笔者仅着重使用了分词标注及统计分析两大功能。为使文本结构的呈现可视化，笔者还利用ROST ContentMing 6.0内容挖掘系统（简称ROSTCM 6.0）对词汇共现结果进行可视化处理，构建我国顶层数据开放政策的语义网络。语义网络的构建，是基于词频共现结果的处理。