第五节 关于本次数据调查的反思
社会科学研究中,存在定量研究和定性研究两种方式。近些年来,量化研究在社会科学中的地位不断得到提升。相比于质化研究,量化研究适合在宏观层面对事物进行大规模的调查和预测,证实的是有关社会现象的平均情况。本课题在展开更深入的定性研究之前,为了总体把握近十年来国内青少年网络流行文化的宏观情况,我们首先在全国范围内进行了基于问卷调查的量化研究。现在,当数据调研告一段落后,有必要对整个调查的方法和过程进行反思,希望指出网络青少年流行文化研究使用量化方法时应该注意的事项,并结合大数据技术,眺望适用于青少年流行文化研究的新方法、新动向。
“青少年”和“流行文化”:概念与指标的困境
青少年作为一个概念,在定量研究实践中始终缺乏一个统一的操作化定义。以往的研究文献中,对于青少年的定义包括了生物学、心理学、社会学的视角,而多数研究对于青少年采用以年龄为标准进行界定,但是存在年龄选择上的随意性,更加让人容易混淆的情况是,部分研究把青少年和大学生、中学生在概念上交替使用,更有些研究并不触及年龄界限问题,对于研究对象完全模糊化。《中国青少年生殖健康政策与法规分析》和《中国青少年性与生殖健康研究现状——文献综述与项目回顾(2003—2007年)》两份项目文件,尽管针对的对象是15~24岁的人口,但是题名都含有“青少年”。北京大学人口研究所的胡玉坤教授等学者曾经专门撰文厘清“青少年”和“青年”的概念,他们强调年龄指标在区隔不同群体的上的意义,其研究表明15~19岁和20~24岁两个年龄段的青年群体在性与生殖健康知识、态度和行为方面有明显差异。在他们进行的2009年第一次全国青年生殖健康调查中,按惯例将年龄范围是16~24岁的青年称为青少年。
青少年的概念难以统一,其和文化结合产生的“青少年网络流行文化”则更为复杂。在课题的进行过程中,最为困难的是对于“青少年网络流行文化”内涵的分析。在执行层面,青少年流行文化概念的含混造成概念操作化上的进一步混乱,表现为测量指标和测量维度在各种同类研究中的不一致。任何研究必须明确研究对象,研究对象的选择和研究目的及研究内容直接相关。概念的混淆带来研究对象的模糊,从而影响基本范畴和理论体系的构建,弱化了研究的价值并使得不同研究之间的对话变得困难。对于一个以网络流行文化为主题的研究,如何分解指标是研究的重点也是研究的难点。课题组选取了当下典型的网络中的文化现象作为研究对象,其选择的主题包括网络社交文化、二次元文化、PGC文化、粉丝文化、网络流行词汇文化、网络音乐文化以及网络性别文化等,其建立的研究框架对于同类研究也具有一定的指导意义。
在本研究中,我们在制定配额抽样方案时,对于青少年在年龄上采取12~28岁的标准,具体在年龄上按12~14岁、15~19岁、20~24岁、25~28岁划分为4个层次,并结合地域和性别指标分配样本。这4个年龄段分别包含3、5、5、3岁的区间。结合以上的讨论,我们结合调查数据,列出了本研究主要关注的和网络流行文化相关联的一些的网络行为的分年龄构成,并进行卡方检验以验证不同的网络行为和年龄之间的关系。从表1-5-1结果看,所有的网络行为在不同年龄段之间都是有显著差异的。
表1-5-1 中国青少年分年龄网络行为构成
(注:*p<0.05, **p<0.01, ***p<0.001)
本研究的结论进一步证明了年龄对于青少年网络流行文化的重要性,也再一次提醒从事青少年网络流行文化研究的学者应该关注青少年和网络流行文化的内涵。需要指出的是:目前学界还没有对青少年的年龄范围达成共识,而我们在强调的是,流行文化是动态的,在未来可能还会有新的表现形式,在研究中应该注意不同年龄对于青少年文化的影响,在未来的学术研究中,力争对于青少年的概念达成一致。
有限的资源与宏大的命题:抽样技术的选择
在抽样类型上,大致可以分为概率抽样和非概率抽样两大类。其中概率抽样包括简单随机抽样、系统抽样、分层抽样、整群抽样、多段抽样;非概率抽样包括偶遇抽样、判断抽样、定额抽样和雪球抽样。概率抽样得到的样本估计量可以对总体的参数进行估计和推断,而非概率抽样则适用于当研究目的仅仅是对问题做初步探索,为获得研究的线索或者提出假设,而不是由样本来推断总体的情况。虽然概率抽样具有的优势明显,但是在社会科学研究中,受到研究条件的影响,导致其实施相比于非概论抽样更加困难。而非概率抽样具有的操作方便、省力省钱的优点使其获得了很多研究的青睐。现实中任何社会科学的研究都受到人力物力的限制,在条件不是很充裕的情况下,在青少年流行文化的研究领域,定量研究中的抽样调查使用配额抽样是一种不错的选择。
经过权衡,本次调研采用问卷调查法收集数据,采用配额抽样的方法抽取全国12~28周岁的青少年作为调查对象。配额抽样是按照调查对象的一些属性或者特征,把总体中全部的个体进行归类,分别在各类中抽取样本。这种抽样方法是一种非概率的抽样技术,有两个基本的假定条件:一是只要类型划分较细,那么同一类型中每个个体都是同质的,因此无需随机抽样;此外,只要类型划分合理,而且分配给各类的配额符合总体中各种类型的分布,那么样本就可以代表总体的情况。
抽样都希望样本能够尽量代表总体。如果是一个面向全国的研究,那么就要考虑地域差异的因素。在抽样方案设计上我们按照通常划分地域的做法,把全国分为东、中、西三个区域,每个区域包含数量不等的省、自治区、直辖市,其中西部包括重庆、四川、贵州、云南、西藏、陕西、甘肃、青海、宁夏、新疆;中部包括陕西、内蒙古、吉林、黑龙江、安徽、江西、河南、湖北、湖南;东部包括北京、天津、河北、辽宁、上海、江苏、浙江、福建、山东、广东、广西、海南;抽样以全国性的人口统计资料为依据按区域、年龄和性别分配样本,收集到的样本数据包括全国18个省、自治区和直辖市(不包含香港、澳门和台湾地区在内)。研究共发放问卷1506份,回收有效问卷1415份,有效回收率93.9%。调查时间一个月,截止日期为2015年7月31日。
本次调查中,我们利用大学生放暑假返乡的机会请他们发放问卷。考虑到征召到的调查员家庭所在地的分布数量,在具体执行时来自东部地区的调查员分别完成样本年龄在12~14岁、15~19岁、20~24岁、25~28岁的问卷3、5、7、6份;来自中部和西部地区的调查员分别完成样本年龄在12~14岁、15~19岁、20~24岁、25~28岁的问卷5、10、13、9份,并做到男女受访者1:1的配额。研究要求调查员抽样时采用偶遇抽样或滚雪球抽样的方法寻找样本;偶遇抽样的做法是随机选择偶然遇到的人作为调查对象,或者仅仅选择那些离得最近的、最容易找到的人作为调查对象;滚雪球抽样是指先随机选择一些被访者并对其实施访问,再请他们提供另外一些属于研究目标总体的调查对象,根据所形成的线索选择此后的调查对象。在执行方式上,可以采用调查员和被访者一对一的形式,也可以采用一对N的方式展开调查,同时收集几份问卷。
项目组要求每个调查员必须保证访问所收集的数据资料的精确和完整,严禁作弊行为的发生。为达到这一目标,本次调查在调查前就采取一些必要措施来控制问卷回答的质量,包括对于调查员的培训和教育。同时在问卷中设置少量题目用于回访时核查,在项目组收到调查员提交的问卷后,项目组会安排专人对每个调查员所做的问卷随机抽选问卷,进行复核。如果发现作弊行为,该调查员所做的所有问卷将全部取消。
大数据时代的青少年文化研究方法前瞻
大数据(Big Data)是近些年来非常热门的一个概念,虽然学界和业界对其概念还没有统一的定论,但是通常是指数据体量和数据类别特别大,无法用传统数据库工具对其抓取、管理和处理的数据。当前,大数据正在逐渐进入我们的日常生活,在社会科学领域,大数据正在引发新一轮的方法论方面的革命。大数据和传统数据的区别主要体现在:首先,传统数据样本量一般较小,而大数据数量庞大,几乎等于总体,研究者甚至没有进行抽样的必要;其次,传统数据常用问卷调查方法获取,数据主观性较高,而在大数据中数据并不通过问卷获得,而是在现实生活中自动形成客观的自然数据,可信度大于传统问卷调查数据;最后,传统数据的产生过程是按照一定研究目的而设计问卷收集数据,而大数据则侧重于对数据的挖掘。
在大数据和社会科学相结合的时候,一些研究方法值得我们加以关注,其中的自动文本分析和可视化分析完全可以得到进一步的应用。自动文本分析是一种分析社会中各种文本的技术手段,由计算机代替人工去进行文本处理。文本分析的核心是分类,传统分类方法是字典法,根据关键词的出现频数来确定类别,而大数据时代的自动文本分析则基于机器学习去分类和定位。青少年普遍是网络空间的活跃分子,他们在网络空间留下了大量的文本,而这些文本完全可以用来分析青少年网络流行文化的现状和未来发展趋势。数据可视化可以使得数据描述更加直观、形象,加强了对于数据信息的发现、分析和理解。数据的可视化是近些年来精确新闻、数据新闻的热点,除了在大数据背景中使用,现有的统计调查手段也完全可以使用数据的可视化。我们课题组在青少年流行文化可视化方面已经做了一些实践,在网页、微信中发布我们的研究成果,取得了良好的社会效果。在未来,和大数据结合的数据可视化必然会使得数据分析更加具有魅力。