一 文献综述
虽然学界对大数据这一概念的最早起源时间说法不一(如1890年[2],20世纪80年代[3]或90年代初[4]),但绝大多数学者接受和认可“大数据”是在2011年前后开始获得大范围关注这一观点。[5]国外学术界对“大数据”的概念展开了广泛讨论,高德纳(Gartner)用规模性(Volume)、高速性(Velocity)和多样性(Variety)定义大数据。[6]规模性是指这些数据的存储容量远超过去,达到太字节(Terabytes)甚至拍字节(Petabytes)级别的数据已经较为常见;高速性是指数据产生和更新的速度非常快,早期,人们所能接触到的最新信息可能来源于昨日的报纸新闻,而在数据不间断超高速产生的今天,几秒钟之前产生的信息可能已经不算最新;多样性是指数据产生和存储的形式多种多样,它可以文本形式存在,亦可以图片、视频或短信等多种多样的形式存在。总体上看,高德纳将大数据定义为一种大规模的高速产生的多样化的信息集合,且需要有效的和创新性的形式进行处理,以获得更强的洞察力、决策力和过程的自动化。在此基础之上,又有学者和机构不断进行补充,加入了更多的维度,如价值性(Value)[7]和精确性(Veracity)[8]:价值性是指大数据携带的海量信息,而这些信息可以产生巨大的经济和社会价值;精确性是指大数据的质量和可信度,虽然很难人为地确认这些业已产生的数据的质量和可信度,但目前快速发展的数据分析技术正在逐步解决这些问题。除了上述定义以外,还有一些定义也广为接受,如马尼卡(Manyika)等人认为,大数据是一种难以被普通数据处理软件捕获、储存、管理和分析的大规模数据集;[9]而博伊德(Boyd)和克劳福德(Crawford)则将大数据定义为一种文化、科技和学术现象,这种现象植根于越来越强大的运算能力、分析能力和对大数据价值的充分信任之上。[10]针对这些定义,也有学者对大数据定义进行分类。德毛罗(De Mauro)等人认为大数据通常从四个不同的角度被定义,分别是信息(Information)、科技(Technologies)、方法(Methods)和影响(Impact)。[11]埃克比亚(Ekbia)等人将过往文献中对大数据的定义分为三类:第一类定义以产品为导向(Product-oriented),注重强调数据的大小、速度、结构或者构成;第二类定义以过程为导向(Process-oriented),更加关注数据收集、监管和使用的过程;第三类定义以认知为导向(Cognition-oriented),侧重强调具有认知能力的人与数据的关系。[12]对大数据的广泛研究和讨论佐证了其价值和影响力,马尼卡等人将大数据称为“创新、竞争和生产力的下一个前沿”。[13]
在国内传播学研究领域,“大数据方法”的概念在不少文献中出现,有研究指出当下我们应该具备大数据思维:大数据思维只关注相关性而非因果关系,是一种“思维的革命”;此外,大数据使样本转变成“总体”和“全部”,从而避免了传统随机采样方法中的不精确,“大数据技术为总体分析提供了技术支持,所得到的研究结论将更加完善和严整”;大数据时代的来临使得科学研究的关注点从“鸡零狗碎”式的小问题上升到对整个学科发展的宏观趋势的判断,而且“更好的数据算法和有效的数据处理法则”的重要性将会超过理论。[14]